В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла
Электронные книги, с которыми сейчас могут иметь дело пользователи, бывают представлены в виде файлов самых различных типов. В настоящем пособии акцент будет сделан на следующих трёх. DJVU – формат, созданный специально для размещения в сети Интернет отсканированных с хорошим разрешением изображений, содержащих текстово-графическую информацию. Изображение в этом формате, как правило, состоит из трёх слоёв: первый – “background”, содержит фон и малоконтрастные участки с плавными переходами оттенков, второй слой – “mask”, чёрно-белый трафарет-маска с высококонтрастными участками, такими как текст, схемы, графики, и третий слой – “foreground” с информацией о цвете для слоя маски. Слои “background” и “foreground” сжимаются вейвлет-алгоритмом IW44, а слой “mask” упаковывается методом JB2. В результате этого достигается очень высокая степень компрессии, благодаря чему DJVU очень удачно сочетает в себе относительно малые размеры выходного файла и довольно неплохое качество отсканированного изображения/текста, несмотря на то, что алгоритмы IW44 и JB2 являются методами сжатия с потерями. Формат сейчас усовершенствован – в него добавлен ещё и слой распознанного (OCR) текста. В целом, DJVU оказался особенно хорош для перевода в электронный вид старых книг, справочников и учебников, изданных в «докомпьютерную эру». Перечень программ, позволяющих осуществлять просмотр файлов в таком формате, довольно обширен и здесь будет вполне достаточным назвать “Djvu Solo” и “WinDjView”. PDF – формат, основанный на языке программирования PostScript и облюбованный типографами за то, что позволяет подготавливать в электронном виде разнообразные публикации, обеспечивая при этом полное соответствие между напечатанной страницей и её отображением на экране компьютера. Формат использует для данных алгоритм сжатия без потерь, что позволяет получать относительно малого размера файлы многостраничных книг, содержащих большие объёмы текстовой информации и широко применяется для создания документации технического характера, а также электронных версий научных статей. Язык PostScript предназначен для описания графических объектов, характеристики которых задаются при помощи математических уравнений, то есть он, прежде всего, нацелен на работу с векторной графикой (к ней относятся и изображения символов шрифтов типа True Type). В силу этого формат PDF тоже можно считать векторным, однако в него могут быть внедрены и растровые (фотографические) изображения. Благодаря этой особенности встречаются pdf-книги, которые представляют собой набор отсканированных страниц бумажного издания, и в этом плане они в чём-то подобны книгам формата DJVU. Традиционно для просмотра pdf-файлов используется программа “Adobe Acrobat”. Сейчас появилось много альтернативных программ, также умеющих открывать файлы рассматриваемого типа, среди них – популярные браузеры “Mozilla Firefox” и “Google Chrome”. CHM – изначально задумывался как формат файлов справки для операционных систем (ОС) семейства Windows. Представляет из себя набор веб-страниц, сопутствующих им рисунков GIF, JPEG или PNG и других вспомогательных файлов (например, таблиц стилей), упакованных (скомпилированных) в один файл. Текстовая информация в нём подвергается сжатию, чем достигается сравнительно небольшой размер конечного файла. Формат вполне популярен, поскольку позволяет создавать электронные книги с красивым оформлением и удобной навигацией. Кроме того, данный формат используется ещё и для создания офф-лайн версий интернет-сайтов. Файлы в формате CHM хороши прежде всего тем, что для их просмотра в среде “Windows” (начиная с 98-го) не требуется установки дополнительного программного обеспечения – они по умолчанию открываются системной утилитой “hh.exe”. Вероятно по этой причине количество сторонних программ-читалок файлов этого формата невелико, но, тем не менее, они есть, например, это “Ice Book Reader Professional”. Кроме перечисленных типов файлов, электронные книги могут быть представлены в форматах TXT, HTML, RTF, DOC, FB2 и некоторых других. Для указанных файлов можно применять программу “Cool Reader”. Кратко о рассматриваемых форматах:
|
В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла