PDF и DJVU – зачем нужны программы-конвертеры
Итак, что же такое PDF? Так как с лета 2008 года данный
формат стал открытым стандартом, то в сети есть достаточно точные определения, что из себя представляет наш предмет обсуждения – это кроссплатформенный формат файлов (Portable Document Format), введенный компанией Adobe еще в далеком 1993 и позволяющий включать в состав документа как сам текст, так и используемые шрифты, растровые и даже векторные изображения. А в последнее время, используя инструмент Acrobat 3D, можно внедрять и трехмерную графику в форматах U3D, PRC и некоторых других.
Теперь – зачем это нужно: компания Adobe в результате этой нехитрой манипуляции – создания документа с использованием возможностей PostScript, поддерживаемого в любой ОС безотносительно к программной среде или "железу" – фактически удалось "подмять" часть полиграфической индустрии и распространения полностью оформленных электронных документов, например, журналов и иллюстрированных книг. Напомним, что формат PDF появился в 1993, а стал открытым лишь в 2008 году (в спецификации версии 1.7) – а до этого он был проприетарным (закрытым коммерческим) и с полными возможностями редактировался только продуктами компании Adobe, что позволило ей стать лидером в этой области. Разумеется, есть альтернативы, но их немного, возможности редко превышают удобство PDF и они намного менее популярны.
Теперь обратимся к другому формату распространения печатной продукции во всемирной сети – DjVu. По сути, это скорее файл, созданный при помощи
технологий сжатия изображений с потерями, в основном с применением алгоритма JB2 – в нем используется словарь изображений, позволяющим заменять повторяющиеся символы на нескольких страницах одним изображением. Строго говоря, в спецификации используется три слоя изображения – передний слой, задний слой и маска, и именно маска сжимается по алгоритмы JB2, и для большего выигрыша в размере получаемого документа два других слоя исключают из получаемого файла.
Боле того, DjVu позволяет хранить специальный OCR-слой, иначе называемый текстовым слоем, который содержит дублирующий изображение текст. Он позволяет быстро копировать текстовые данные
из документа в любом просмотрщике DjVu-файлов. Если же текстового слоя нет – то де-факто остается только путь распознавания изображений в стороннем ПО, но об этом далее в нашей статье.
Путешествие из PDF в DOC
Исходя из сказанного выше, полноценные редакторы PDF – довольно редкое явление по причине того, что формат только недавно стал открытым и де-факто продукты компании Adobe заняли лидирующие позиции как в просмотре, так и редактировании PDF-файлов. К тому же большинство редакторов стоит более $200, и человеку, не работающему с такими документами часто, накладно покупать такое ПО ради одного-двух документов.
Тут на помощь
приходят программы
-конвертеры, позволяющие перенести содержимое PDF-документа в более распространенный и просто редактируемый формат – Microsoft
Word или DOC. Почему именно DOC? Во-первых, Microsoft Office
– достаточно популярный офисный пакет с широкими возможностями, очень распространенный как в России, так и за рубежом, а функционал его позволяет в широких пределах изменять оформление документа. Во-вторых, существует большое количество альтернативного свободного ПО, работающих с данным
форматом, наиболее известным из которых является кроссплатформенный пакет OpenOffice.
Сегодня мы пройдем по данной
цепочке и рассмотрим несколько программ
-конвертеров. Однако вначале маленькое отступление – создавая PDF-файл, его можно защитить паролем от редактирования, и для открытия такого файла Вам скорее всего понадобится либо пароль, либо программа
для снятия защиты – их великое множество в сети. Скачав первый попавшийся документ, мы обнаружили что он защищен именно таким образом – скачать тестовый PDF-файл.
Мы воспользовались trial-версией программы
VeryPDF PDF Password Remover. Ограничения версии – всплывающее окошко при открытии получившегося документа и расшифровывается только половина страниц исходного документа.
Для наших целей этого было достаточно. Получившийся файл – скачать тестовый PDF-файл без пароля, как видно на снимке, изменений в структуре нет.
Также мы проверяли обработку программами
и английского документа – с альбомным расположением страницы, рисунками и без защиты, скачать английский тестовый PDF.
Все представленные в тесте конвертеры были бесплатными или trial-версиями, скаченными с официальных сайтов
разработчиков и предназначены для работы в операционной системе Windows
(мы тестировали в Windows 7).
Free PDF to Word Doc Converter
Для начала мы взяли бесплатный конвертер Free PDF to Word Doc Converter, который позиционируется как простое и быстрое решение для преобразования документов. Сразу можно сказать, что решение действительно простое – никаких особых дополнительных настроек, все в одном окошке программы
, доступной только на английском языке.
Нам можно задать исходный документ, куда сохранить результат конвертирования, сколько страниц конвертировать, шрифт и пару опций, относящихся к форматированию, а также чем открыть получившийся документ. Free PDF to Word Doc Converter запросто открыл документ с защитой, а процесс прошел действительно быстро, и, полные надежд, мы открыли наш документ после конвертирования.
Что тут можно сказать – оформление он конечно сохранил, и даже попытался сделать формулы похожими на оригинал, но потеря всего русского текста непростительна – для конвертирования русскоязычных документов Free PDF to Word Doc Converter совершенно не годится. Посмотрим, как он справился с английским PDF.
Потеряны все изображения, сноски превратились в нечто невразумительное, словом, и тут Free PDF to Word Doc Converter не блещет. Что же, годится данная
программа
только для быстрого конвертирования английских текстовых PDF без графики и особого оформления, всего только и достоинств, что бесплатна и не требует для работы снятие защиты.