Блог Артёма Агасиева

Про всякое.

Apple Developer Program и боль

Эппл: Купи Apple Developer Program, ну пожалуйста.
Я: Ок, держи $99.
Эппл: Ну теперь мне уже не хочется.

May 16   Apple   Боль

Тинькофф КЭП и КриптоПро под MacOS

Это ад. Так и не получилось выпустить подпись через банк-клиент на Mac OS. Пришлось искать комп с Windows и там за 10 минут все было готово.

Контур Диадок тоже не запустился с полпинка, все требовал от меня православной Windows, но техподдержка все порешала. Охуенная у них техподдержка, люблю их.

Воскрешаем плагин для КриптоПро CSP в Chrome

Если кто-то такой же молодец как и я, и снес плагин для КриптоПро CSP в Chrome, а повторная установка не добавляет его иконку в браузере, то скачать его можно из Chrome Store.

Пока это единственный рабочий способ воскресить этот багучий плагин в хроме.

Радар

Забавное открытие сегодняшнего дня: слово радар, на самом деле аббревиатура.
RADAR – RAdio Detection And Ranging.

Как и слова сонар и лидар.

Apr 5   Радар   ЦОС

fastText эмбеддинги

fastText – библиотека для векторного представления слов и классификации текстов от Facebook AI Research.

Для её сборки, нам потребуется компилятор с поддержкой C++11 (gcc-4.6.3, clang-3.3 и новее):

git clone https://github.com/facebookresearch/fastText.git
cd fastText
sudo python3 -m pip install .

Если у вас установлено несколько компиляторов разных версий, то можно запустить установку, явно указав путь к нужной версии компилятора:

sudo CC='/usr/bin/gcc-4.9' python3 -m pip install .

Используем уже натренированную модель

Тренированную модель для русского языка можно скачать тут. В архиве занимает 4.2 Гб, распакованная 6.8 Гб:

wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ru.300.bin.gz
gunzip cc.ru.300.bin.gz

Использовать можно так:

from fasttext import load_model

model = load_model("cc.ru.300.bin")

Тренируем свою модель

from fasttext import train_unsupervised

model = train_unsupervised(
    input="dataset.txt", 
    model='skipgram'
)

model.save_model("skipgram_model.bin")

На Core i7-6700 с датасетом в 20 млн строк, модель обучилась в течении 5 эпох за 35 минут и весила ~1.1 Гб.

Используем

Для оценки похожести/близости векторов будем использовать косинусное сходство:

$$ \mathrm{similarity} = \mathrm{cos(}\theta\mathrm{)} = \dfrac{A \cdot B}{\left\lVert A \right\rVert \cdot \left\lVert B \right\rVert} $$

В коде будет выглядеть так:

import numpy as np

def similarity(v1, v2):
    n1 = np.linalg.norm(v1)
    n2 = np.linalg.norm(v2)

    if n1 < 1e-6 or n2 < 1e-6:
        return 0.0
    else:
        return np.dot(v1, v2) / n1 / n2

def word_similarity(model, w1, w2):
    return similarity(model.get_word_vector(w1), model.get_word_vector(w2))

def sentence_similarity(model, t1, t2):
    return similarity(model.get_sentence_vector(t1), model.get_sentence_vector(t2))

Проверяем:

>>> word_similarity(model, "приветик", "привет")
0.7990662

>>> sentence_similarity(model, "сколько тебе лет", "а лет-то тебе сколько")
0.85209394

Про классификацию текста при помощи fastText напишу чуть позже.

Earlier Ctrl + ↓