Page 65 - Сборник трудов научно-исследовательских работ студентов МАИ
P. 65
пример слова с фиксированным шагом. Текст с
пропорциональным шагом разбивается на слова с
использованием определенных пробелов и нечётких
пространств. В этом случае распознавание происходит как
двухпроходный процесс. В первом проходе делается
попытка распознать каждое слово по очереди. Каждое
удовлетворительное слово передаётся адаптивному
классификатору в качестве обучающих данных, затем
классификатор получает возможность более точно
распознать текст ниже по странице. Второй проход
выполняется над страницей повторно. Вследствие чего
нераспознанные слова идентифицируются с высокой
степенью достоверности.
Рис. 2 Пример анализа слова алгоритмом Tesseract с равной длиной
символов
Рис. 3 Пример сложного текста с разным расстоянием между символами
Распознавание сложно читаемых символов
происходит в соответствии со схемой «chop-then-associate».
Это означает, что сначала символы, которые имеют
искажения, разделяются, как это показано на рис. 4, а затем
происходит их ассоциация. С помощью классификатора
«урезанные» символы, как показано на рис. 5,
идентифицируются. Преимущество заключается в том, что
схема упрощает структуры данных, которые потребуются
для поддержания полного графика сегментации.
65

