Создание выходного файла


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла


<<< >>>

Создание выходного файла

Ну вот мы и подошли к рассмотрению финальной стадии изготовления электронных книг, и все предыдущие этапы можно рассматривать лишь как подготовительные, что, впрочем, нисколько не умаляет их важности. Начнём с DJVU.


Существует целый ряд приложений, позволяющих создавать и редактировать djvu-файлы. Я рекомендую довольно простую в использовании программу “DjvuSolo” версии 3.1. Файлы формата DJVU бывают разных модификаций (версий). DjvuSolo создаёт файлы достаточно ранней версии 21, которые открываются любыми приложениями для просмотра DJVU, чем обеспечивается максимальная совместимость. Считаю нужным предупредить, что поскольку указанное приложение уже довольно старое, с его работоспособностью в среде новых версий ОС Windows могут возникать проблемы.

Процедура создания djvu-книги довольно проста: нужно открыть в программе файл скана, добавить к нему остальные изображения со страницами книги и перекодировать всё это командой File → Encode As DjVu. “DjvuSolo” умеет открывать графические файлы в форматах BMP, JPEG, GIF, TIFF и некоторые другие, при этом необходимо помнить, что сканы зачастую ввиду их большого размера открываются достаточно долго – возможно придётся запастись терпением, ожидая, пока приложение их «прожуёт».

В процессе программа дополнительно просит указать пару настроек.

Во-первых, она спрашивает, в каком виде сохранить результат: одним единым файлом, вместе (“Bundled”), или же раздельно, как группу djvu-файлов (“Indirect”), каждый из которых содержит изображение одной страницы (скана).

Во-вторых, нужно также указать метод, в соответствии с которым будет производиться перекодирование изображения на сканах в формат DJVU. В “DjvuSolo” этих методов четыре:

  • “Scan” – наиболее подходит для изображений страниц, полученных в режимах работы сканера «Цветной» или «Оттенки серого». При кодировании производится анализ изображения, в результате которого малоконтрастные участки с плавными переходами цветов сохраняются в слой “background”, а высококонтрастная часть картинки – текст, графики, таблицы – сохраняется в слои “mask” (само изображение) и “foreground” (данные о цвете для слоя трафарета-маски).
  • “Clean” – в чём-то аналогичен “Scan”, но предназначен главным образом для перекодирования изображений, имеющих «компьютерное» происхождение (например, скриншотов рабочих окон программ), поскольку в этом режиме отделение текста от фона выполняется более аккуратно. Тем не менее, этот метод для отсканированных книжных страниц сколько-нибудь заметного преимущества (размер выходного файла, качество картинки) по сравнению с методом “Scan”, как правило, не даёт.
  • “Photo” – всё изображение сохраняется целиком в слой “background” и в результате сильно проигрывает в размере выходного файла по сравнению с методом “Scan”, хотя по качеству ему особо не уступает. Для сканов книжных страниц использовать в принципе можно, но очень осмотрительно.
  • “Bitonal” – обрабатываемое изображение предварительно переводится в чёрно-белый режим, а затем сохраняется в слой “mask”. Этот метод лучше всего использовать для сохранения сканов, полученных в монохромном режиме работы сканера.

Часто бывает, что сканируемая книга содержит на некоторых страницах цветные иллюстрации, на некоторых – чёрно-белые (полутоновые серые), а также страницы только с текстом. Такие книги рациональнее сканировать с применением всех трёх режимов сканирования. При создании из сканов djvu-файла лучше сначала цветные и полутоновые серые страницы сохранить в одном файле с использованием метода “Scan”, а монохромные – в другом файле, использовав метод “Bitonal”. Далее содержимое этих файлов можно при помощи той же “DjvuSolo” объединить в одну djvu-книгу.

Алгоритм, в соответствии с которым происходит перекодирование изображения скана страницы в DJVU, имеет одну неприятную особенность: он сам может генерировать «опечатки», что как раз и обусловлено отбрасыванием по мнению алгоритма «лишней» информации при сжатии скана. Наиболее часто встречающаяся ошибка – это замена буквы «и» буквой «н» и наоборот. Подобные искажения в процессе сжатия исходной картинки могут возникать у текста, набранного мелким шрифтом или на сканах плохого качества (когда изображение нерезкое, несколько размытое). Именно по этим причинам в пункте «Сканирование» специально было обращено внимание на правильный выбор разрешения и на плотное прилегание страницы к стеклу сканера.

Djvu-файлы могут содержать в себе слой распознанного текста, что порой бывает весьма удобно, поскольку отпадает необходимость экспорта страниц и обработки с помощью OCR‑программы, но, как нетрудно догадаться, наличие дополнительной информации приводит к некоторому увеличению размера файла. Функция распознавания русскоязычного текста есть, в частности, в шестой версии djvu-редактора “Document Express Editor” – в ней это достигается командой меню Tools → OCR → OCR Entire Document (Сервис → OCR → OCR документа).

Формат DJVU дозволяет создавать в электронной книге гиперссылки в виде активных областей страницы, имеющих прямоугольную, овальную или полигональную форму. Ссылки могут направлять пользователя либо на какой-нибудь интернет-ресурс, либо на другую страницу многостраничного djvu-файла. Последнее позволяет сделать в такой книге интерактивное оглавление, поэтому не стоит лениться создавать его. За основу можно взять страницу (страницы) со сканом настоящего оглавления книги и «оживить» его при помощи гиперссылок – пользоваться такой электронной книгой удобнее, поскольку в ней читателю проще добраться до интересующего его материала.


Для создания файлов в формате PDF есть несколько способов. Можно использовать LO “Writer” – для этого достаточно открыть этой программой файл DOC или ODT с подготовленной книгой и воспользоваться командой Файл → Экспорт в → Экспорт в PDF… . Кроме этого, есть ряд программ, так называемых «виртуальных принтеров», например “doPDF”. Пользоваться подобными приложениями также несложно: преобразуемый в pdf-книгу файл нужно просто отправить на печать через такой «принтер» – программа перехватит выводимую информацию и запишет в виде файла – «напечатанная» виртуальным принтером страница выглядит также, как она выглядела бы, будучи напечатанной на бумаге принтером физическим (реальным).

Текст из pdf-файла можно поместить (скопировать) в буфер обмена, однако с кириллическими знаками могут возникнуть неприятности – иногда русский текст копируется, но вставляется в виде совершенно нечитаемой каши из непонятных символов-закорючек («кракозябр»). С pdf‑файлами, созданными LO “Writer” эта проблема решается так: перед выделением копируемого текста индикатор раскладки клавиатуры должен быть переключен на «Русский» (RU). Кстати, при копировании распознанного русскоязычного текста из файла формата DJVU описанная сложность тоже может проявиться – решается она аналогично.

Дополнительно хотелось бы рассмотреть такой вопрос. Ещё в пункте «Форматы книг» упоминалось, что встречаются pdf-книги, представляющие собой набор отсканированных страниц, а в пункте «Общие положения» говорилось, что такие электронные версии изданий уступают по размерам аналогичным файлам DJVU. Вот один из способов, с помощью которого можно преобразовать книгу в формате PDF в djvu-файл – зачастую при этом удаётся достичь весьма существенного уменьшения размера файла с книгой. Для этого вам пригодится “PDFill” или “FinePrint” – это тоже виртуальные принтеры. Рассматриваемые приложения умеют отправленную на «печать» информацию сохранить в виде набора графических файлов популярных форматов (прежде всего – TIFF и BMP). Таким образом, из pdf-файла можно получить как бы набор «сканов» со страницами книги. Далее эти «сканы», в зависимости от ситуации, можно с использованием пакетной обработки в Photoshop’е подрезать (удалить лишние поля), преобразовать, допустим, из оттенков серого в монохромные и т. п. По завершении этих процедур останется лишь перекодировать обработанные «сканы» в DJVU.


Для создания файлов CHM есть разные программы. Прежде всего, это “HTML Help Workshop” от Microsoft, создательницы этого формата. Я рекомендую также программу “Htm2chm”, позволяющую легко конвертировать (компилировать) набор подготовленных предварительно веб-страниц с сопутствующими им файлами в один. Одно из неоспоримых достоинств данного приложения – исключительно простой и интуитивно понятный интерфейс, который позволяет очень быстро освоить программу.

Не могу не упомянуть приложение “ChmBookCreator”, которое можно бесплатно скачать с сайта «Маленькая паутинка». Данное приложение позволяет создавать приятно оформленные chm-книги непосредственно из файлов RTF, DOC и некоторых других. При этом “ChmBookCreator” обладает рядом настроек, позволяющих пользователю дополнительно управлять оформлением создаваемой электронной книги.


Наверх


<<< >>>


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла