Page 65 - Сборник трудов научно-исследовательских работ студентов МАИ
P. 65

пример  слова  с  фиксированным  шагом.  Текст  с
               пропорциональным  шагом  разбивается  на  слова  с
               использованием  определенных  пробелов  и  нечётких
               пространств. В этом случае распознавание происходит как
               двухпроходный  процесс.  В  первом  проходе  делается
               попытка  распознать  каждое  слово  по  очереди.  Каждое
               удовлетворительное      слово     передаётся    адаптивному
               классификатору  в  качестве  обучающих  данных,  затем
               классификатор  получает  возможность  более  точно
               распознать  текст  ниже  по  странице.  Второй  проход
               выполняется  над  страницей  повторно.  Вследствие  чего
               нераспознанные  слова  идентифицируются  с  высокой
               степенью достоверности.






               Рис.  2  Пример  анализа  слова  алгоритмом  Tesseract  с  равной  длиной
               символов









               Рис. 3 Пример сложного текста с разным расстоянием между символами
                     Распознавание      сложно      читаемых       символов
               происходит в соответствии со схемой «chop-then-associate».
               Это  означает,  что  сначала  символы,  которые  имеют
               искажения, разделяются, как это показано на рис. 4, а затем
               происходит  их  ассоциация.  С  помощью  классификатора
               «урезанные»  символы,  как  показано  на  рис.  5,
               идентифицируются. Преимущество заключается в том, что
               схема упрощает структуры данных, которые потребуются
               для поддержания полного графика сегментации.


                                             65
   60   61   62   63   64   65   66   67   68   69   70