Обработка сканов


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла


<<< >>>

Обработка сканов

После того, как сканы получены, желательно заняться дальнейшей обработкой графических файлов для улучшения восприятия их содержимого либо человеком (при просмотре с экрана компьютера), либо специальными компьютерными программами (о них речь пойдёт в пункте «Распознавание сканов»). Поэтому характер обработки зависит, прежде всего, от того планируется ли дальнейшее распознавание текста книги или предполагается лишь сохранение её в виде djvu-файла.

Настоятельно советую хранить отдельно файлы исходных, необработанных сканов и ни в коем случае не удалять их до тех пор, пока процесс создания электронной книги не будет доведён до конца, а ещё лучше даже после этого какое-то время сканы не уничтожать. По этой причине необходимо иметь носитель (как правило, это винчестер компьютера) соответствующей ёмкости, присутствие на котором сотни-другой файлов размером порядка 20‑30 МБ каждый не будет слишком обременительным и не приведёт к острой нехватке свободного места.

Для обработки сканов в принципе сгодится любой приличный графический редактор, но я настоятельно рекомендую “Adobe Photoshop”, поскольку у него есть одна очень замечательная функция, именуемая пакетной обработкой файлов, к тому же – хорошо реализованная. Она как нельзя кстати подходит для выполнения однотипных операций (групп действий) с большим количеством файлов изображений.

В Интернете можно найти информацию о том, как пользоваться этой самой пакетной обработкой, хотя сложного в ней ничего нет – я в своё время сумел разобраться самостоятельно. Суть этой функции Photoshop’а в следующем. После открытия программой редактируемого файла в палитре “Actions” («Действия») можно включить запись совокупности действий над изображением (ей предварительно задаётся какое-нибудь имя), а затем выполняются необходимые операции. После окончания записи эту совокупность действий можно многократно использовать в отношении файлов, расположенных в какой-нибудь папке. Для этого нужно командой меню File → Automate → Batch... (в руссифицированной версии это Файл → Автоматизация → Пакет...) открыть диалоговое окно “Batch” («Серия»), указать в нём название применяемой совокупности действий, папку с обрабатываемыми файлами и папку, в которую нужно сохранить результат. “Photoshop” автоматически обработает указанные ему файлы, после чего останется только проверить итог его работы. Общая длительность процесса определяется мощностью компьютера и количеством обрабатываемых файлов-сканов.

Пакетная обработка – очень мощное и весьма удобное средство. Ниже приводятся несколько примеров операций со сканами, которые можно использовать в такой обработке изображений страниц оцифровываемой книги.


Пример 1. Обрезка нежелательных полей сканов.

Большинство моделей сканеров рассчитаны на сканирование страниц формата А4, при этом размер стекла сканера и, соответственно, область, с которой производится получение изображения, бывает несколько больше. В результате все сканы страниц книг могут иметь нежелательные поля, подобные тем, что схематично показаны на Рисунке 2. Поскольку поля эти редко выглядят привлекательно, увеличивая попутно размер файла скана, то их лучше удалять, используя в пакетной обработке после выделения нужного участка изображения команду меню Image → Crop (Изображение → Кадрировать…) или инструмент «Кадрирование» на соответствующей панели. Применение данного типа обработки актуально, если предполагается создание книги в формате DJVU.


 

Рисунок 2. Схематичное изображение примера нежелательных правого и нижнего тёмных полей на скане (слева) и результат их удаления (справа)


Пример 2. Удаление «грязи» на полях и в центре разворота.

На сканах, полученных в монохромном режиме работы сканера, часто остаётся «грязь» в виде чёрных областей и линий по краям скана и в его середине – в месте, где проходит книжный корешок (в случае, если скан является изображением книжного разворота), что иллюстрируется на Рисунке 3. Если предполагается создание книги в формате DJVU, то имеет смысл от подобных «загрязнений» избавляться, поскольку в этом случае страница получаемой книги выглядит более опрятно, к тому же при выводе такой страницы на печать будет достигаться ещё и некоторая экономия тонера.


 

Рисунок 3. Схематичное изображение «грязи» на чёрно-белом скане (слева) и результат её удаления (справа)


Применительно к изображённому схематично на Рисунке 3 скану разворота книги выполнять очистку довольно удобно следующим образом: инструментом «Выделение» нужно выделить две прямоугольные области (при этом на панели «Настройки» для данного инструмента должна быть активна опция “Add to selection” («Добавить к выделению») с текстовыми блоками страниц книги, как это показано на Рисунке 4 (а), а затем выполнить команды меню Select → Inverse (Выделение → Инвертировать выделение) (Рисунок 4, (б) ) и Edit → Clear (Редактирование → Очистить).



(а)

 


(б)

Рисунок 4. Очистка скана: выделение прямоугольных блоков текста (а) и инверсия области выделения (б)


Пример 3. Преобразование скана, полученного в оттенках серого в чёрно-белое (монохромное) изображение.

Если книга не содержит на своих страницах цветных и полутоновых изображений, то рациональнее проводить сканирование в чёрно-белом (монохромном) режиме, поскольку это благотворно скажется на размере готового файла djvu-книги. Но иногда может оказаться, что сканы страниц такой книги были получены в режиме оттенков серого или даже в цветном. В этом случае пакетная обработка может помочь в преобразовании сканов в чёрно-белые изображения. Для этого обычно бывает достаточно включить в неё команду меню Image → Adjustments → Threshold (Изображение → Регулировки → Порог...). Она «отсекает» блеклое изображение фона, заменяя его белым цветом, и делает буквы текста чёрными, чётко очерченными. Предварительно иногда бывает необходимо несколько увеличить контрастность командой Image → Adjustments → Brightness/Contrast (Изображение → Регулировки → Яркость/Контраст…). Примерный получающийся при этом результат приведён на Рисунке 5.


 

Рисунок 5. Преобразование скана полученного в режиме «оттенки серого» (слева) в чёрно-белое изображение (справа)


Здесь же мне хотелось бы добавить описание следующего приёма, многими практикуемого. Иногда книгу, не содержащую цветных и полутоновых изображений, специально сканируют в режиме оттенков серого с разрешением 300 dpi, а перед действием Threshold (Порог...) предварительно увеличивают их разрешение до 600 dpi. Делается это в диалоговом окне, вызываемом командой Image → Image Size... (Изображение → Размер изображения...), где нужно поменять разрешение (“resolution”) с 300 на 600 pixels/inch (пиксели/дюйм – эту единицу измерения можно считать тождественной dpi). Получающийся при этом обработанный рисунок неотличим от изображения страницы, изначально отсканированной в чёрно-белом режиме с разрешением 600 dpi. Таким образом можно получить книгу, как бы всю оцифрованную с указанным разрешением, но при этом сэкономить массу времени, так как нередко сканеры в режиме grayscale/300 dpi работают заметно шустрее, чем в monochrome/600 dpi.


Пример 4. Цветокоррекция сканов.

Зачастую после сканирования книги полученные сканы нуждаются в определённой цветокоррекции, одинаковой для каждого из них. Для этих целей в Photoshop’е есть целый арсенал команд из меню Image → Adjustments (Изображение → Регулировки), часть из которых уже упоминалась в предыдущих примерах. Дать конкретные рекомендации в этом случае затруднительно, поскольку применение тех или иных инструментов (команд) зависит от ситуации, от того насколько сильно и в какую сторону фактическое изображение отсканированной страницы отличается от ожидаемого результата. Так, если предполагается дальнейшее распознавание текста в сканах (для книг форматов PDF и CHM), то, пожалуй, следует обратить внимание на контрастность изображения, а если на сканах имеются цветные иллюстрации, то, возможно, понадобятся кое-какие манипуляции с балансом цветов.


Пример 5. Разделение скана с разворотом книги на отдельные страницы.

Встречающиеся в Интернете книги формата DJVU можно условно разделить на две группы: те, в которых каждой странице djvu-файла соответствует скан одной страницы книги, и на те, в которых одна djvu-страница представляет собой книжный разворот (две страницы книги). Некоторые программы для просмотра djvu-файлов имеют опцию показа сразу двух страниц, чем имитируется демонстрация книжного разворота, однако не у всех приложений эта функция всегда работает корректно. В связи с этим нет единого мнения по поводу того, как лучше сохранять книгу – постранично или разворотами – это определяется вкусом и пристрастиями создателя электронной версии какого-либо издания.

Если всё же при создании книги в формате DJVU принято решение в пользу постраничного варианта, а сканы представляют изображения книжных разворотов, то пакетной обработкой легко выполнить такое разрезание каждого скана на две картинки. Действовать тут можно аналогично тому, как это описано выше в Примере 1, только здесь нужно записать две разные совокупности действий: одна будет кадрировать и сохранять в отдельный файл левую часть скана с изображением чётной страницы книги (см. Рисунок 2), а другая – вырезать правую его часть с изображением нечётной страницы. Нужно обязательно проконтролировать, чтобы имена получившихся файлов соответствовали порядку страниц книги. Рекомендую после выполнения одной совокупности действий, например, когда из исходных сканов получены чётные страницы, дать файлам с ними имена, содержащие чётные числа.

Для этой цели может пригодиться “Total Commander” или во многом аналогичный ему “Free Commander”. У данных приложений есть инструмент “Multi Rename” по переименованию сразу целой группы выбранных файлов – он находится в меню File (Файл). При его вызове открывается диалоговое окно, в котором можно добавить к началу имени каждого файла в папке число (или вообще присвоить имя, только из этого числа и состоящее). Для этого предварительно в шаблоне новых имён файлов указывается элемент “Counter” («Счётчик»), у которого нужно будет задать следующие дополнительные параметры:

  • начальное значение счётчика (“Start at:” – «Начать с:»), в зависимости от ситуации – 0, 1 или 2;
  • шаг (“Step by:”) – при нумеровании чётных или нечётных страниц-файлов установить значение 2;
  • число знаков (цифр) (“Digits:”) – если количество страниц в отсканированной книге исчисляется сотнями, то лучше поставить значение 3.

После переименования можно запускать на выполнение другую совокупность действий (вырезание из сканов нечётных страниц книги), по завершении которой понадобится выполнить ещё одно аналогичное переименование. В результате файлы с отдельными страницами книги можно будет спокойно поместить в одну папку, и все они там расположатся в правильном порядке.


Иногда возникают ситуации, в которых пакетная обработка не в состоянии помочь. Например, на одной из страниц книги может оказаться чья-нибудь рукописная пометка типа «Вася Пупкин – дурак» или рисунок в стиле «точка, точка, запятая – вышла рожица смешная». Если после сканирования книги с такими дополнительными «декорациями» нет желания оставить их красоваться в djvu-файле, то следует выполнить ретуширование скана, дабы удалить из него следы «народного творчества». В Photoshop’е подобная процедура проводится с использованием инструментов «Размытие» , «Клонирование штампа» и некоторых других. Занятие это требует терпения и аккуратности, поэтому вполне способно отнять довольно много времени, особенно если нежелательная «левая» надпись сделана прямо поверх текста книги (наличие такой надписи приведёт к его некорректному распознаванию в этом месте).


Наверх


<<< >>>


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла