fastText эмбеддинги
fastText — библиотека для векторного представления слов и классификации текстов от Facebook AI Research.
Для её сборки, нам потребуется компилятор с поддержкой C++11 (gcc-4.6.3, clang-3.3 и новее):
git clone https://github.com/facebookresearch/fastText.git
cd fastText
sudo python3 -m pip install .
Если у вас установлено несколько компиляторов разных версий, то можно запустить установку, явно указав путь к нужной версии компилятора:
sudo CC='/usr/bin/gcc-4.9' python3 -m pip install .
Используем уже натренированную модель
Тренированную модель для русского языка можно скачать тут. В архиве занимает 4.2 Гб, распакованная 6.8 Гб:
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ru.300.bin.gz
gunzip cc.ru.300.bin.gz
Использовать можно так:
from fasttext import load_model
model = load_model("cc.ru.300.bin")
Тренируем свою модель
from fasttext import train_unsupervised
model = train_unsupervised(
input="dataset.txt",
model='skipgram'
)
model.save_model("skipgram_model.bin")
На Core i7-6700 с датасетом в 20 млн строк, модель обучилась в течении 5 эпох за 35 минут и весила ~1.1 Гб.
Используем
Для оценки похожести/близости векторов будем использовать косинусное сходство:
$$ \mathrm{similarity} = \mathrm{cos(}\theta\mathrm{)} = \dfrac{A \cdot B}{\left\lVert A \right\rVert \cdot \left\lVert B \right\rVert} $$
В коде будет выглядеть так:
import numpy as np
def similarity(v1, v2):
n1 = np.linalg.norm(v1)
n2 = np.linalg.norm(v2)
if n1 < 1e-6 or n2 < 1e-6:
return 0.0
else:
return np.dot(v1, v2) / n1 / n2
def word_similarity(model, w1, w2):
return similarity(model.get_word_vector(w1), model.get_word_vector(w2))
def sentence_similarity(model, t1, t2):
return similarity(model.get_sentence_vector(t1), model.get_sentence_vector(t2))
Проверяем:
>>> word_similarity(model, "приветик", "привет")
0.7990662
>>> sentence_similarity(model, "сколько тебе лет", "а лет-то тебе сколько")
0.85209394
Про классификацию текста при помощи fastText напишу чуть позже.