Page 64 - Сборник трудов научно-исследовательских работ студентов МАИ
P. 64
точек в определённых выше областях происходит
следующими способами: для бровей используется
адаптивный контрастный фильтр с заданными
минимальными и максимальными значениями серого цвета
для обнаружения границ брови, которая будет представлять
собой набор соединённых точек или полином. Для поиска
окантовки глаза используется обученный классификатор,
определяющий точное положение искомого органа и зрачка
на изображении. Для определения оставшихся точек
применяется адаптивный контрастный фильтр.
После получения координат каждой метки на лице
необходимо составить дескриптор лица, по которому будет
производиться поиск изображений со схожими
характеристиками. Дескриптор лица – набор характеристик,
описывающих лицо независимо от посторонних факторов.
Выполнение распознавания текста реализовано
посредством кросс-платформенной .Net-оболочки
библиотеки обработки изображений Emgu CV и обученной
нейронной сети LSTM, находящейся под управлением
Tesseract, который, в свою очередь, является движком OCR
(оптическое распознавание символов).
LSTM (long short-term memory) — нейронная сеть с
долгой краткосрочной памятью – это тип рекуррентной
нейронной сети, способный обучаться долгосрочным
зависимостям. Их специализация заключается в
запоминании информации в течение длительных периодов
времени.
Обработка изображения происходит за несколько
шагов. Первоначально происходит выполнение
комплексного компонентного анализа, в котором
сохраняются контуры. Текстовые строки разбиваются на
слова по-разному в зависимости от типа интервала
символов. Текст с фиксированным шагом сразу же
нарезается ячейками символов. На рис. 2 показан типичный
64

