Форматы книг


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла


<<< >>>

Форматы книг

Электронные книги, с которыми сейчас могут иметь дело пользователи, бывают представлены в виде файлов самых различных типов. В настоящем пособии акцент будет сделан на следующих трёх.


DJVU – формат, созданный специально для размещения в сети Интернет отсканированных с хорошим разрешением изображений, содержащих текстово-графическую информацию. Изображение в этом формате, как правило, состоит из трёх слоёв: первый – “background”, содержит фон и малоконтрастные участки с плавными переходами оттенков, второй слой – “mask”, чёрно-белый трафарет-маска с высококонтрастными участками, такими как текст, схемы, графики, и третий слой – “foreground” с информацией о цвете для слоя маски. Слои “background” и “foreground” сжимаются вейвлет-алгоритмом IW44, а слой “mask” упаковывается методом JB2. В результате этого достигается очень высокая степень компрессии, благодаря чему DJVU очень удачно сочетает в себе относительно малые размеры выходного файла и довольно неплохое качество отсканированного изображения/текста, несмотря на то, что алгоритмы IW44 и JB2 являются методами сжатия с потерями. Формат сейчас усовершенствован – в него добавлен ещё и слой распознанного (OCR) текста. В целом, DJVU оказался особенно хорош для перевода в электронный вид старых книг, справочников и учебников, изданных в «докомпьютерную эру».

Перечень программ, позволяющих осуществлять просмотр файлов в таком формате, довольно обширен и здесь будет вполне достаточным назвать “Djvu Solo” и “WinDjView”.


PDF – формат, основанный на языке программирования PostScript и облюбованный типографами за то, что позволяет подготавливать в электронном виде разнообразные публикации, обеспечивая при этом полное соответствие между напечатанной страницей и её отображением на экране компьютера. Формат использует для данных алгоритм сжатия без потерь, что позволяет получать относительно малого размера файлы многостраничных книг, содержащих большие объёмы текстовой информации и широко применяется для создания документации технического характера, а также электронных версий научных статей.

Язык PostScript предназначен для описания графических объектов, характеристики которых задаются при помощи математических уравнений, то есть он, прежде всего, нацелен на работу с векторной графикой (к ней относятся и изображения символов шрифтов типа True Type). В силу этого формат PDF тоже можно считать векторным, однако в него могут быть внедрены и растровые (фотографические) изображения. Благодаря этой особенности встречаются pdf-книги, которые представляют собой набор отсканированных страниц бумажного издания, и в этом плане они в чём-то подобны книгам формата DJVU.

Традиционно для просмотра pdf-файлов используется программа “Adobe Acrobat”. Сейчас появилось много альтернативных программ, также умеющих открывать файлы рассматриваемого типа, среди них – популярные браузеры “Mozilla Firefox” и “Google Chrome”.


CHM – изначально задумывался как формат файлов справки для операционных систем (ОС) семейства Windows. Представляет из себя набор веб-страниц, сопутствующих им рисунков GIF, JPEG или PNG и других вспомогательных файлов (например, таблиц стилей), упакованных (скомпилированных) в один файл. Текстовая информация в нём подвергается сжатию, чем достигается сравнительно небольшой размер конечного файла. Формат вполне популярен, поскольку позволяет создавать электронные книги с красивым оформлением и удобной навигацией. Кроме того, данный формат используется ещё и для создания офф-лайн версий интернет-сайтов.

Файлы в формате CHM хороши прежде всего тем, что для их просмотра в среде “Windows” (начиная с 98-го) не требуется установки дополнительного программного обеспечения – они по умолчанию открываются системной утилитой “hh.exe”. Вероятно по этой причине количество сторонних программ-читалок файлов этого формата невелико, но, тем не менее, они есть, например, это “Ice Book Reader Professional”.


Кроме перечисленных типов файлов, электронные книги могут быть представлены в форматах TXT, HTML, RTF, DOC, FB2 и некоторых других. Для указанных файлов можно применять программу “Cool Reader”. Кратко о рассматриваемых форматах:

  • TXT – формат «только текст», исторически самый старый. Данные файлы – наиболее универсальные, информация из них может быть прочитана самыми разными приложениями, работающими в различных операционных системах. Главное достоинство – небольшой размер файлов, а недостаток – невозможность сохранить форматирование текста.
  • HTML – формат веб-страниц и, соответственно, основная сфера его применения – Интернет. Файлы этого формата достаточно компактны и при этом помимо самого текста содержат в себе информацию о его форматировании. Содержимое файла в таком формате можно просмотреть не только при помощи любого текстового редактора, но и посредством более специализированных программ – браузеров.
  • RTF – аббревиатура, являющаяся одновременно и расширением файлов такого типа, расшифровывается как “Rich Text Format” – «Расширенный текстовый формат». В соответствии с таким названием, rtf-файл способен хранить в себе самое разнообразное форматирование содержащегося в нём текста. Основной недостаток, присущий файлам этого типа – сравнительно большой размер.
  • DOC, DOCX – собственный формат документов Microsoft (далее – MS) “Word” (DOCX – в MS Word 2007-2021, DOC – в более ранних версиях этого текстового редактора). По причине огромной популярности данной программы де-факто стал ещё одним форматом для электронных книг. При отсутствии установленного на компьютере «родного» приложения из пакета MS Office doc/docx-файлы можно открыть и просмотреть редактором “Writer” из пакета LibreOffice (далее – LO).
  • FB2 – файлы формата “Fiction Book”, основанного на языке XML. Формат разработан специально для создания электронных книг с определённой структурой хранящейся в ней информации, что облегчает автоматическую обработку таких книг при размещении их в интернет-библиотеках.


Наверх


<<< >>>


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла