<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Блог Артёма Агасиева: заметки с тегом Tesseract</title>
<link>https://agasiev.com/tags/tesseract/</link>
<description>Telegram: @aagasiev</description>
<author>Артём Агасиев</author>
<language>ru</language>
<generator>E2 (v3576; Aegea)</generator>

<itunes:owner>
<itunes:name>Артём Агасиев</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Telegram: @aagasiev</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>Подготовка изображения к OCR</title>
<guid isPermaLink="false">33</guid>
<link>https://agasiev.com/all/podgotovka-izobrazheniya-k-raspoznavaniyu/</link>
<pubDate>Fri, 13 Jul 2018 13:02:55 +0300</pubDate>
<author>Артём Агасиев</author>
<comments>https://agasiev.com/all/podgotovka-izobrazheniya-k-raspoznavaniyu/</comments>
<description>
&lt;p&gt;Бывает, что мне нужно провести несколько экспериментов по распознаванию текста на довольно зашумленных изображениях при помощи &lt;a href="https://github.com/tesseract-ocr/tesseract"&gt;Tesseract&lt;/a&gt; с одним условием — надо сделать быстро.&lt;/p&gt;
&lt;p&gt;Но совсем плохой результат получить тоже не хочется. Поэтому, чтобы улучшить точность распознавания, нужно очистить исходное изображение от шумов и посторонних объектов. Для этого можно либо написать чутка кода, либо использовать утилиту convert из &lt;a href="https://www.imagemagick.org"&gt;ImageMagick&lt;/a&gt;, либо можно взять вот &lt;a href="http://www.fmwconcepts.com/imagemagick/textcleaner/index.php"&gt;этот&lt;/a&gt; скрипт textcleaner, который, по факту, является надстройкой над convert, но простой как три копейки и сильно ускоряет работу. Вся документация подробно изложена на официальной страничке.&lt;/p&gt;
&lt;p&gt;Пример удаления бэкграунда, очистки текста, поворота и обрезки изображения:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;./textcleaner -g -e stretch -f 30 -o 17 -t 15 -u -s 2 -T -p 20 -c 5 infile.jpg outfile.jpg&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Было/стало:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="484" data-ratio="0.9272030651341"&gt;
&lt;img src="https://agasiev.com/pictures/abbott2.jpg" width="484" height="522" alt="" /&gt;
&lt;img src="https://agasiev.com/pictures/outfile.jpg" width="511" height="566" alt="" /&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Дальше запускаем сам tesseract (у меня &lt;a href="https://github.com/tesseract-ocr/tesseract/releases"&gt;4ая бета&lt;/a&gt; с &lt;a href="https://github.com/tesseract-ocr/tessdata_best"&gt;LSTM моделями&lt;/a&gt;):&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;tesseract outfile.jpg stdout -l eng --oem 1&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;И получаем уже чистый текст:&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Clarification&lt;/p&gt;
&lt;p&gt;In the last edition of the “Catholic New World,” an&lt;br /&gt;
article on the annual conference hosted by the Re-&lt;br /&gt;
spect Life Oftice did not fully reflect the context of&lt;br /&gt;
Cardinal George’s remarks.&lt;/p&gt;
&lt;p&gt;During an informal question-and-answer session&lt;br /&gt;
with the archdiocese’s parish Respect Life Coordi-&lt;br /&gt;
nators, the cardinal emphasized that the participa-&lt;br /&gt;
tion by any person in the promotion of abortion, in-&lt;br /&gt;
cluding through his or her political position, is a&lt;br /&gt;
grave matter. While the issue of withholding Com-&lt;br /&gt;
munion- from some of these individuals can be&lt;br /&gt;
complex, Cardinal George said that when any per-&lt;br /&gt;
son presents him or herself to receive the Eucharist,&lt;br /&gt;
they “take their salvation into their own hands.” For&lt;br /&gt;
a more complete explanation of this matter, refer-&lt;br /&gt;
ence the cardinal’s column “Catholic participation&lt;br /&gt;
in political life, revisited” (CNW, Oct. 10, 2004)&lt;br /&gt;
online at www.catholicnewworld.com/&lt;br /&gt;
cnw/issue/2004/cardinal _101004.html .&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Качество распознавания получилось вполне достойное.&lt;/p&gt;
&lt;p&gt;Есть только один минус: бесплатное использование textcleaner разрешено только в некоммерческих целях. В общем, автор жадина-говядина :) Так что используем только для домашних проектов, либо вполне заслуженно поддерживаем финансово создателя скрипта.&lt;/p&gt;
</description>
</item>


</channel>
</rss>