Распознавание сканов


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла


<<< >>>

Распознавание сканов

По завершении сканирования и обработки сканы представляют собой изображения, при просмотре которых на экране компьютера любому человеку по силам не только определить, что перед ним – именно текст, но и прочитать его. Однако для компьютера эта картинка с буквами – всего лишь картинка, и текст в ней, так легко идентифицируемый человеком, для нашего электронного друга «мёртв», машина его не «видит» и, следовательно, не может с ним ничего делать, например, осуществлять полнотекстовый поиск. Однако эта проблема на сегодняшний день вполне разрешима благодаря существованию приложений для распознавания текста, которые ещё называются OCR-программами (OCR – optical character recognition – «оптическое распознавание текста»). Распознавание – это особый вид обработки изображения в графическом файле, заключающийся в преобразовании элементов изображения в последовательность текстовых символов. Полученный в результате текст уже является «компьютерно-живым»: его можно копировать, редактировать или преобразовывать каким-нибудь ещё способом при помощи любых текстовых редакторов.

Существующий сегодня ассортимент OCR-программ довольно обширен. Наиболее известной здесь является ABBYY “Fine Reader”, однако существуют и другие программные продукты, например, бесплатный “CuneiForm”. Стоит добавить, что в состав программного обеспечения, входящего в комплект поставки сканеров, тоже часто входят программы-распознавалки от фирмы-разработчика сканера. Функция распознавания текста есть и у программы “OmniPage”, упоминавшейся в пункте «Сканирование».

Так уж сложилось, что все OCR-программы «знают» английский язык, в связи с чем при распознавании текстов на нём проблем не возникает. С языком русским дело обстоит сложнее, поэтому при выборе программы для распознавания именно русского текста первоочередным критерием должно служить наличие возможности настроить её на восприятие нашего «великого и могучего». Перечисленные абзацем выше приложения (“Fine Reader”, “CuneiForm”, “OmniPage”) текст на русском понимают достаточно хорошо, правильно определяя начертание кириллических символов.

Для распознавания программе нужно указать файл или диапазон файлов. Как правило, OCR-приложения умеют работать с довольно разнообразными графическими форматами (TIFF, GIF, BMP, JPEG). У некоторых приложений есть такая особенность: они считывают метаданные из файла скана, определяют разрешение изображения, и если оно оказывается меньше 300 dpi, то выдаётся предупреждающее сообщение о возможных ошибках распознавания текста на такой картинке. Практика же показывает, что для успешного распознавания главенствующую роль играет не разрешение, а то насколько чётко на скане прорисованы буквы и их характерные элементы.

Распознанный текст можно сохранить в виде отдельного файла. Многие OCR-программы здесь также предлагают целый набор возможных форматов: TXT, HTML, RTF и даже DOC. Я бы рекомендовал первый из перечисленных вариантов, ввиду его наибольшей универсальности. Кроме этого, при сохранении распознанного текста в других форматах к нему добавляется ещё и выбираемое программой форматирование, которое не всегда оказывается уместным и в дальнейшем может даже мешать.

Формат DJVU тоже позволяет сохранять в файле книги распознанный текст. Более подробно об этом будет рассказано в пункте «Создание выходного файла».


Наверх


<<< >>>


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла