Apple Developer Program и боль

Эппл: Купи Apple Developer Program, ну пожалуйста.
Я: Ок, держи $99.
Эппл: Ну теперь мне уже не хочется.
Telegram: @aagasiev
Эппл: Купи Apple Developer Program, ну пожалуйста.
Я: Ок, держи $99.
Эппл: Ну теперь мне уже не хочется.
Это ад. Так и не получилось выпустить подпись через банк-клиент на Mac OS. Пришлось искать комп с Windows и там за 10 минут все было готово.
Контур Диадок тоже не запустился с полпинка, все требовал от меня православной Windows, но техподдержка все порешала. Охуенная у них техподдержка, люблю их.
Если кто-то такой же молодец как и я, и снес плагин для КриптоПро CSP в Chrome, а повторная установка не добавляет его иконку в браузере, то скачать его можно из Chrome Store.
Пока это единственный рабочий способ воскресить этот багучий плагин в хроме.
Забавное открытие сегодняшнего дня: слово радар, на самом деле аббревиатура.
RADAR — RAdio Detection And Ranging.
Как и слова сонар и лидар.
fastText — библиотека для векторного представления слов и классификации текстов от Facebook AI Research.
Для её сборки, нам потребуется компилятор с поддержкой C++11 (gcc-4.6.3, clang-3.3 и новее):
git clone https://github.com/facebookresearch/fastText.git
cd fastText
sudo python3 -m pip install .
Если у вас установлено несколько компиляторов разных версий, то можно запустить установку, явно указав путь к нужной версии компилятора:
sudo CC='/usr/bin/gcc-4.9' python3 -m pip install .
Тренированную модель для русского языка можно скачать тут. В архиве занимает 4.2 Гб, распакованная 6.8 Гб:
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ru.300.bin.gz
gunzip cc.ru.300.bin.gz
Использовать можно так:
from fasttext import load_model
model = load_model("cc.ru.300.bin")
from fasttext import train_unsupervised
model = train_unsupervised(
input="dataset.txt",
model='skipgram'
)
model.save_model("skipgram_model.bin")
На Core i7-6700 с датасетом в 20 млн строк, модель обучилась в течении 5 эпох за 35 минут и весила ~1.1 Гб.
Для оценки похожести/близости векторов будем использовать косинусное сходство:
$$ \mathrm{similarity} = \mathrm{cos(}\theta\mathrm{)} = \dfrac{A \cdot B}{\left\lVert A \right\rVert \cdot \left\lVert B \right\rVert} $$
В коде будет выглядеть так:
import numpy as np
def similarity(v1, v2):
n1 = np.linalg.norm(v1)
n2 = np.linalg.norm(v2)
if n1 < 1e-6 or n2 < 1e-6:
return 0.0
else:
return np.dot(v1, v2) / n1 / n2
def word_similarity(model, w1, w2):
return similarity(model.get_word_vector(w1), model.get_word_vector(w2))
def sentence_similarity(model, t1, t2):
return similarity(model.get_sentence_vector(t1), model.get_sentence_vector(t2))
Проверяем:
>>> word_similarity(model, "приветик", "привет")
0.7990662
>>> sentence_similarity(model, "сколько тебе лет", "а лет-то тебе сколько")
0.85209394
Про классификацию текста при помощи fastText напишу чуть позже.