Подготовка изображения к OCR
Бывает, что мне нужно провести несколько экспериментов по распознаванию текста на довольно зашумленных изображениях при помощи Tesseract с одним условием — надо сделать быстро.
Но совсем плохой результат получить тоже не хочется. Поэтому, чтобы улучшить точность распознавания, нужно очистить исходное изображение от шумов и посторонних объектов. Для этого можно либо написать чутка кода, либо использовать утилиту convert из ImageMagick, либо можно взять вот этот скрипт textcleaner, который, по факту, является надстройкой над convert, но простой как три копейки и сильно ускоряет работу. Вся документация подробно изложена на официальной страничке.
Пример удаления бэкграунда, очистки текста, поворота и обрезки изображения:
./textcleaner -g -e stretch -f 30 -o 17 -t 15 -u -s 2 -T -p 20 -c 5 infile.jpg outfile.jpg
Было/стало:
Дальше запускаем сам tesseract (у меня 4ая бета с LSTM моделями):
tesseract outfile.jpg stdout -l eng --oem 1
И получаем уже чистый текст:
Clarification
In the last edition of the “Catholic New World,” an
article on the annual conference hosted by the Re-
spect Life Oftice did not fully reflect the context of
Cardinal George’s remarks.During an informal question-and-answer session
with the archdiocese’s parish Respect Life Coordi-
nators, the cardinal emphasized that the participa-
tion by any person in the promotion of abortion, in-
cluding through his or her political position, is a
grave matter. While the issue of withholding Com-
munion- from some of these individuals can be
complex, Cardinal George said that when any per-
son presents him or herself to receive the Eucharist,
they “take their salvation into their own hands.” For
a more complete explanation of this matter, refer-
ence the cardinal’s column “Catholic participation
in political life, revisited” (CNW, Oct. 10, 2004)
online at www.catholicnewworld.com/
cnw/issue/2004/cardinal _101004.html .
Качество распознавания получилось вполне достойное.
Есть только один минус: бесплатное использование textcleaner разрешено только в некоммерческих целях. В общем, автор жадина-говядина :) Так что используем только для домашних проектов, либо вполне заслуженно поддерживаем финансово создателя скрипта.