Общие положения


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла


<<< >>>

Общие положения

Так как книги – это, прежде всего, продукт творческого труда, то разговор об их оцифровке нужно начать с напоминания о том, что на территории нашей страны вопросы, касающиеся результатов интеллектуальной деятельности, регламентируются частью четвёртой Гражданского Кодекса России. Применительно к нашей теме необходимо уяснить для себя следующее: законно изготавливать электронную копию книги можно только при наличии соответствующего разрешения обладателя авторских прав на неё, а в случае отсутствия такого разрешения не запрещается оцифровка лишь тех книг, которые перешли в общественное достояние в соответствии со ст. 1282 ГК РФ.

При оцифровке печатных изданий далеко не последнюю роль играет комплекс технических характеристик компьютера, при помощи которого будет изготавливаться электронная книга – объём оперативной памяти, тактовая частота процессора и прочее. В целом, чем выше эти параметры – тем лучше, ведь тогда компьютер способен быстрее осуществлять обработку информации, преобразуемое количество которой при создании электронной книги обычно очень велико. В данном пособии в процессе изложения материала будут упоминаться программные средства, работающие под управлением операционных систем семейства Windows, поскольку разные их версии наиболее распространены у пользователей. Приверженцам же Linux, зачастую являющимся людьми достаточно опытными в информационных технологиях, не составит большого труда адаптировать информацию из пособия под предпочитаемую ОС.

Зададимся вопросом: если, по большому счёту, не существует никаких общепринятых стандартов и требований по оформлению электронных книг, то не пришла ли пора для тех, кто занимается их изготовлением, определить хоть какие-нибудь правила, чтобы руководствоваться ими? Я предлагаю к использованию два следующих принципа, кратко которые можно сформулировать так:

  • файл электронной книги должен иметь по возможности минимальный размер
  • в электронном варианте книги недопустимо существенное искажение информации по сравнению с её бумажным оригиналом

Приведённые тезисы нуждаются в развёрнутом комментарии. Несмотря на то, что компьютерная техника развивается бешеными темпами – непрерывно растут ёмкости носителей информации, быстродействие процессоров и пропускная способность интернет-соединений – считаю, что всё-таки лучше, когда электронная книга имеет в байтовом выражении по возможности меньшую величину. В этом случае на одном и том же носителе можно записать гораздо больше информации, так как экономится место, к тому же проще осуществить пересылку такой книги по сети. Именно по этой причине в настоящем пособии внимание будет уделено созданию книг форматов DJVU, PDF и CHM как максимально полно удовлетворяющих первому принципу. Относительно PDF сразу следует сделать дополнительную оговорку. В пункте «Форматы книг» уже упоминалось, что встречаются pdf-книги являющиеся набором отсканированных страниц бумажного издания. Такой файл по своему размеру почти всегда проигрывает (и порой весьма значительно) аналогичному файлу формата DJVU, не имея при этом сколь-нибудь заметного преимущества в качестве изображения. Отсюда следует, что книги в формате PDF с цельными сканами страниц также не удовлетворяют принципу минимального размера файла, по коей причине создание именно таких pdf-книг в данном пособии рассматриваться не будет.

При попытках минимизации файла не следует перегибать палку. Мне встречались djvu-книги, страницы которых были не очень хорошо отсканированы (с довольно низким разрешением – для уменьшения размера сканов страниц), а из-за того, что при создании djvu-файла изображение и так подвергается сжатию с потерями информации, текст на страницах таких электронных книг получился трудночитаемым. Это подводит нас к рассмотрению второго принципа – отсутствия в оцифрованном издании существенного искажения информации. Электронная копия книги должна наиболее полно соответствовать тому, что она – именно копия, максимально точно дублирующая имеющееся в бумажном оригинале его информационное наполнение, ведь только в этом случае данными из такой книги можно пользоваться уверенно, не опасаясь сделать непреднамеренную ошибку и имея возможность, например, с чистой совестью сослаться на такой литературный источник также, как и на печатный. Согласитесь, что навряд ли вызовет большое доверие электронный вариант бумажного издания, если, допустим, в нём будет изобилие опечаток, обусловленных тем, что сканированные страницы прогнали через программу распознавания текста и не потрудились как следует проверить результат её работы – ничего, кроме раздражения и недоумения, такая оцифрованная книга у читателя не вызовет.

Считаю допустимым, что в особых, исключительных, случаях в электронную книгу можно вносить некоторые корректировки её содержимого, но они, во-первых, непременно должны быть обоснованы, во-вторых, делать это нужно деликатно, а, в-третьих, будущего читателя такой книги нужно обязательно известить о том, какому именно редактированию подверглась исходная информация.

Дальнейшее изложение материала в пособии подчинено следованию реализации на практике двух рассматриваемых принципов. Строго говоря, положения о минимальном размере файла и об отсутствии искажений информации могут вступать в противоречие друг с другом. Здесь очень важно умение найти оптимальное решение и весьма существенным тут является выбор формата, в котором лучше будет сохранить оцифрованную книгу, а это зависит от её содержимого – я могу лишь посоветовать ориентироваться на составленную мной Таблицу 1, которая приводится ниже.


Таблица 1. Некоторые типы информационного наполнения книг и предпочтительные для них форматы

Издание

Формат

Книги при изготовлении электронных версий которых требуется сохранить композицию и внешний вид их страниц (старинные и раритетные издания)

DJVU

Книги, содержащие текст без иллюстраций (произведения художественной литературы, публицистические работы и т. п.) при условии, что требуется сохранение именно текстовой информации, а также книги с малым или умеренным количеством иллюстративного материала

CHM, PDF

Литература научного и технического характера, имеющая на своих страницах текст со значительным числом специальных знаков и формул, рисунков, схем, а также иные книги с обилием иллюстративного материала

DJVU

Периодические издания – журналы, газеты

DJVU


Процесс создания электронной книги является многоэтапным. В самом общем виде ход её изготовления может быть представлен как последовательность следующих стадий:

  1. Сканирование – получение цифровых копий страниц книги (издания) в виде совокупности графических файлов (сканов);
  2. Обработка сканов – редактирование и корректировка полученных изображений, прежде всего с целью улучшения их качества;
  3. Распознавание сканов – программный перевод имеющихся в графических файлах текстовых блоков в компьютерный текст;
  4. Корректура – вычитка распознанного текста и исправление ошибок в нём;
  5. Подготовка иллюстративного материала – создание на основе сканов файлов рисунков, схем, диаграмм, графиков отдельно от основного текста, а также подготовка таблиц и проверка содержащихся в них данных;
  6. Вёрстка – форматирование текста и сведение его воедино с подготовленным иллюстративным материалом, а также создание общего оформления электронной книги;
  7. Создание выходного файла – запись в выбранном формате готового файла-книги.

Наличие или отсутствие в приведённой схеме каких-либо конкретных стадий также находится в зависимости от содержания книги и от того, в каком именно формате предполагается создание её цифровой копии. Далее каждый из перечисленных этапов формирования электронной книги будет рассмотрен более детально.


Наверх


<<< >>>


В начало | От автора | Форматы книг | Общие положения | Сканирование | Обработка сканов | Распознавание сканов | Корректура | Подготовка иллюстративного материала | Вёрстка | Создание выходного файла