Конвертеры PDF в DOC и DjVu в DOC формат Microsoft Word: обзор программ

04 апреля 2011, Однокрылов Владимир 13
Преобразование документов PDF и DjVu в файлы, поддающиеся редактированию неспециализированным ПО, является довольно востребованной задачей. И сегодня мы поговорим о некоторых способах и программах конвертации этих форматов в один из самых распространенных типов файлов – документ Microsoft Word (DOC), а также о подводных камнях, ожидающих пользователей на этом поприще.

PDF и DJVU – зачем нужны программы-конвертеры #

Итак, что же такое PDF? Так как с лета 2008 года данный формат стал открытым стандартом, то в сети есть достаточно точные определения, что из себя представляет наш предмет обсуждения – это кроссплатформенный формат файлов (Portable Document Format), введенный компанией Adobe еще в далеком 1993 и позволяющий включать в состав документа как сам текст, так и используемые шрифты, растровые и даже векторные изображения. А в последнее время, используя инструмент Acrobat 3D, можно внедрять и трехмерную графику в форматах U3D, PRC и некоторых других.

Теперь – зачем это нужно: компания Adobe в результате этой нехитрой манипуляции – создания документа с использованием возможностей PostScript, поддерживаемого в любой ОС безотносительно к программной среде или "железу" – фактически удалось "подмять" часть полиграфической индустрии и распространения полностью оформленных электронных документов, например, журналов и иллюстрированных книг. Напомним, что формат PDF появился в 1993, а стал открытым лишь в 2008 году (в спецификации версии 1.7) – а до этого он был проприетарным (закрытым коммерческим) и с полными возможностями редактировался только продуктами компании Adobe, что позволило ей стать лидером в этой области. Разумеется, есть альтернативы, но их немного, возможности редко превышают удобство PDF и они намного менее популярны.

Теперь обратимся к другому формату распространения печатной продукции во всемирной сети – DjVu. По сути, это скорее файл, созданный при помощи технологий сжатия изображений с потерями, в основном с применением алгоритма JB2 – в нем используется словарь изображений, позволяющим заменять повторяющиеся символы на нескольких страницах одним изображением. Строго говоря, в спецификации используется три слоя изображения – передний слой, задний слой и маска, и именно маска сжимается по алгоритмы JB2, и для большего выигрыша в размере получаемого документа два других слоя исключают из получаемого файла.

Боле того, DjVu позволяет хранить специальный OCR-слой, иначе называемый текстовым слоем, который содержит дублирующий изображение текст. Он позволяет быстро копировать текстовые данные из документа в любом просмотрщике DjVu-файлов. Если же текстового слоя нет – то де-факто остается только путь распознавания изображений в стороннем ПО, но об этом далее в нашей статье.

Путешествие из PDF в DOC #

Исходя из сказанного выше, полноценные редакторы PDF – довольно редкое явление по причине того, что формат только недавно стал открытым и де-факто продукты компании Adobe заняли лидирующие позиции как в просмотре, так и редактировании PDF-файлов. К тому же большинство редакторов стоит более $200, и человеку, не работающему с такими документами часто, накладно покупать такое ПО ради одного-двух документов.

Тут на помощь приходят программы-конвертеры, позволяющие перенести содержимое PDF-документа в более распространенный и просто редактируемый формат – Microsoft Word или DOC. Почему именно DOC? Во-первых, Microsoft Office – достаточно популярный офисный пакет с широкими возможностями, очень распространенный как в России, так и за рубежом, а функционал его позволяет в широких пределах изменять оформление документа. Во-вторых, существует большое количество альтернативного свободного ПО, работающих с данным форматом, наиболее известным из которых является кроссплатформенный пакет OpenOffice.

Сегодня мы пройдем по данной цепочке и рассмотрим несколько программ-конвертеров. Однако вначале маленькое отступление – создавая PDF-файл, его можно защитить паролем от редактирования, и для открытия такого файла Вам скорее всего понадобится либо пароль, либо программа для снятия защиты – их великое множество в сети. Скачав первый попавшийся документ, мы обнаружили что он защищен именно таким образом – скачать тестовый PDF-файл.

Мы воспользовались trial-версией программы VeryPDF PDF Password Remover. Ограничения версии – всплывающее окошко при открытии получившегося документа и расшифровывается только половина страниц исходного документа.

Для наших целей этого было достаточно. Получившийся файл – скачать тестовый PDF-файл без пароля, как видно на снимке, изменений в структуре нет.

Также мы проверяли обработку программами и английского документа – с альбомным расположением страницы, рисунками и без защиты, скачать английский тестовый PDF.

Все представленные в тесте конвертеры были бесплатными или trial-версиями, скаченными с официальных сайтов разработчиков и предназначены для работы в операционной системе Windows (мы тестировали в Windows 7).

Free PDF to Word Doc Converter #

Для начала мы взяли бесплатный конвертер Free PDF to Word Doc Converter, который позиционируется как простое и быстрое решение для преобразования документов. Сразу можно сказать, что решение действительно простое – никаких особых дополнительных настроек, все в одном окошке программы, доступной только на английском языке.

Нам можно задать исходный документ, куда сохранить результат конвертирования, сколько страниц конвертировать, шрифт и пару опций, относящихся к форматированию, а также чем открыть получившийся документ. Free PDF to Word Doc Converter запросто открыл документ с защитой, а процесс прошел действительно быстро, и, полные надежд, мы открыли наш документ после конвертирования.

Что тут можно сказать – оформление он конечно сохранил, и даже попытался сделать формулы похожими на оригинал, но потеря всего русского текста непростительна – для конвертирования русскоязычных документов Free PDF to Word Doc Converter совершенно не годится. Посмотрим, как он справился с английским PDF.

Потеряны все изображения, сноски превратились в нечто невразумительное, словом, и тут Free PDF to Word Doc Converter не блещет. Что же, годится данная программа только для быстрого конвертирования английских текстовых PDF без графики и особого оформления, всего только и достоинств, что бесплатна и не требует для работы снятие защиты.

Solid Converter PDF #

Следующий участник – Solid Converter PDF, комммерческая программа от компании Solid Documents.

Сразу после запуска видно – простым конвертирование PDF в Word тут не обходится, набор функций весьма широк. Но в принципе интерфейс прост (благодаря хорошо оформленным иконкам) и нужную функцию нам найти не сложно.

Интерфейс на русском языке без видимых ошибок в переводе – словом, неплохая локализация. Правда, попытка скормить программе защищенный PDF успехом не увенчалась – потребовался пароль. Поэтому для тестов мы воспользовались разблокированный версией.

Строго говоря, несмотря на обширный набор опций, мы решили не останавливатся на подробностях.

Причина сего поступка проста – нас интересовал функционал сразу "из коробки", обычный пользователь коммерческих продуктов как правило не заинтересован в "допиливании напильником". Поэтому сразу после открытия мы перешли к конвертированию тестового файла. Ждать пришлось лишь чуть-чуть больше, чем в случае с Free PDF to Word Doc Converter.

А вот результат конвертирования получился очень неплох – практически все формулы, за исключением сложных дробей, сохранены в исходном виде, а текст полностью повторяет структуру такового в PDF. Одно печалит – пробная версия оставляет здоровенный штамп по диагонали каждой страницы получающегося документа. После результата с русским PDF мы нисколько не сомневались в положительном результате при конвертировании английского PDF, но тестирование есть тестирование, и все участники должны пройти одинаковый набор тестов. Итак, загрузили файл, кликнули, подождали пару секунд – и вот результат.

Практически 100% редактируемая копия исходного документа. Аплодисменты, занавес. Итого – отличный функционал, быстрая и качественная работа: пока что Solid Converter PDF является лидером в данном тесте.

VeryPDF PDF2WORD #

Третий участник нашего блиц-тестирования – VeryPDF PDF2WORD, продукт от компании VeryPDF, автора использованной при подготовке к тестированию программы для снятия защиты с PDF-файлов.

Главное окно программы довольно простое – из меню есть доступ к открытию файлов, а главное окно оказывает информацию о задании.

Есть и некоторый набор дополнительных опций.

Итак, первый мы загрузили нашу защищенную методичку и конвертер спокойно ее принял. Впрочем это неудивительно – была высока вероятность, что в свой конвертер VeryPDF PDF2Word компания также встроит механизм дешифровки. Немного ожидания, и сконвертированный файл готов.

Немного нарушено форматирование текста, сложные формулы нечитаемы, простые формулы несколько искажены, оценка – удовлетворительно. Посмотрим, что у нас получается при конвертировании английского PDF.

Оформление немного искажено, часть элементов "перескочила" на следующую страницу, но картинки сохранены. Однако размер получающегося файла – 3,28 Мбайта – все всякой критики, программа каждый рисунок разделила на отдельные элементы, что и привело к неоправданному росту объема. Оценка – удовлетворительно с минусом.

ABBYY PDF Transformer #

Программа ABBYY PDF Transformer является по сути урезанным ABBYY FineReader – из входных файлов оставлена только поддержка PDF, а вывод – в ограниченный объем форматов. Защищенные файлы PDF программа не открывает.

В пробной версии мы также имеем набор довольно жестких ограничений.

Негусто. Но тем не менее попробуем воспользоватся тем функционалом, что дают, к слову говоря, конвертация PDF в ABBYY PDF Transformer происходит путем простого распознавания – как и любого другого файла изображений в ABBYY FineReader.

Итак, мы распознали исходный русский PDF в автоматическом режиме и сохранили результат.

Драконовские ограничения пробной версии даже не дали выбрать страницы для сохранения и получаем мы в итоге лишь первые две страницы, качество неплохое, но на результат в сложных врядли можно рассчитывать более высокий, чем у самого ABBYY FineReader. Закинули в ABBYY PDF Transformer одностраничный английский тестовый PDF.

На выходе получили обычную картину для ABBYY FineReader – без ручного редактирования видимо невозможно обойтись, а форматирование получившегося документа похоже на содержимое блендера после первой секунды измельчения.

Adobe Acrobat X #

Ну и как же мы могли обойти вниманием "родной" для формата PDF редактор - Adobe Acrobat. Тестировали мы пробную версию Adobe Acrobat Х Pro, которая доступна после регистрации для свободного скачивания на официальном сайте компании Adobe.

Программа имеет английский интерфейс, при запуске сразу предлагает выбрать задачу, которой Вы намерены занятся.

Открыть защищенный файл нам не удалось, поэтому мы перешли к "беззащитному" варианту. Разумеется, файл открылся без каких-либо проблем – к слову сказать, в отличие от всех программ в этом обзоре Adobe Acrobat не является конвертером – это полноценный коммерческий продукт от разработчиков pdf-формата, предназначенный для создания и редактирования любых (естественно, кроме защищенных) PDF-файлов.

Но мы редактировать файл не стали – просто попробовали сохранить его в формате MS Word. И вот что из этого получилось в итоге.

Простые формулы и форматирование текста переданы с минимальными искажениями, а вот ситуация со сложными формулами хуже, чем в Solid Converter PDF. Посмотрим, что получится из английского PDF.

Недостатки лишь в мелких искажениях заметок, изображения и текст переданы практически без искажений, здесь Adobe Acrobat нисколько не уступает Solid Converter PDF.

Как DjVu в Word попал и что из этого получилось #

Файлы DjVu открываются любым, даже самым простым просмотрщиком – примеры приложений Вы можете найти в нашей статье "Что такое DjVu и как с ним работать?", мы воспользовались WinDjView (самую новую версию Вы всегда можете скачать в нашем файловом архиве на странице программы).

А вообще у содержимого любого DjVu-документа есть три пути стать файлом формата DOC:

  • Непосредственно перенестить из текстового слоя посредством буфера обмена в Microsoft Word – в этом случае какой либо намек на форматирование теряется, ровно как и изображения. Результат – мы получаем просто кучу обычного текста.
  • Быть распознанным специальным ПО сразу – примером этого случая станет наш эксперимент с ABBYY FineReader, который с версии 9 стал поддерживать такой тип входных изображений.
  • Посредством виртуального (программного) принтера стать PDF-файлом и далее отправится в вышеописанные программы-конвертеры или тот же самый ABBYY FineReader.

Но сначала тестовые условия: нашей лабораторной мышкой стал данный файл – 374-х страничный учебник по механике двухфазных систем размером 5,28 Мбайта (присутствует текстовый слой, чистый текст занимает 588 Кбайт). Конвертация документа производится без каких-либо изменений в тексте, все настройки используемых программ – изначальные.

ABBYY FineReader #

Итак, первым делом попробуем распознать документ в ABBYY FineReader. Ограничения пробной версии оказались еще более жесткие, чем в ABBYY PDF Transformer.

Одна радость – функционал намного больше.

Программа открыла документ как изображение, тестовый слой был проигнорирован – страница распознавалась с нуля. Мы ограничили тестовый объем одной страницей – все равно сохранить нельзя больше.

Результаты теста: пример №1 и пример №2 мало чем смогли порадовать – без ручной подстройки распознаваемых блоков ABBYY FineReader опознает не ахти.

В целом разница здесь между просто текстом и данными результатами невелика – сложные формулы выглядят кашей. Ручное же редактирование, в данном случае, 174 страниц – задача нетривиальная.

Экспорт в PDF при помощи Adobe Acrobat #

В задаче использования виртуального принтера мы решили обратится к Adobe Acrobat - кто может лучше всего подготовить PDF, как не редактор, созданный для этого? Открыв просмотрщик DjVu, мы в качестве принтера выбрали Adobe PDF.

Немного ожидания и в редакторе наконец открылся результат – однако его размер составил 26,43 Мбайта.

Очевидно, что все содержимое исходного документа было преобразовано в графику. Дальнейший путь файла – в наш раздел конвертеров и вышеуказанный ABBYY FineReader. В обоих случаях несложно догадаться, что 100% соотвествие исходному документу нас не ожидает.

Итоги #

В заключение мы можем отметить, что среди всех программ, протестированный нами и способных к конвертации PDF, наилучший результат дают Solid Converter PDF и Adobe Acrobat, остальные же программы способны удовлетворить нужды лишь непритязательных пользователей. Что касается DjVu, то путей превращения таких документов в 100%-похожую редактируемую копию пока нет – либо придется преобразовывать сложные места в изображения, либо оформлять утерянные участки до исходного состояния вручную.

Отзывы

13 Оставить отзыв
  • доброжелатель 27.08.2014 в 16:42

    Использовал конвертор Солид И Акробат (условно бесплатный). Родной конвертор справляется лучше. Солид даже простые формулы превращал в месиво из символов. Статья больше похожа на рекламу Солида. Приплели зачем-то формат ДВЖ, но как с ним бороться так из статьи и не понять. Наверное потому что Солид не работает с этим форматом и авторы решили не заморачиваться с рекламой сторонних программ за которую не проплатили))).

    • Ильнур 26.11.2013 в 04:08

      Соглашусь хороший отзыв, но есть самая лучшая программа, можете на ютубе посмотреть называется Smart pdf converter

      • Фёдор 30.11.2013 в 01:52

        Ну да, статья от 04.2011 отзыв с упоминанием Smart pdf converter из 11.2013, всего то два с половиной года разницы.

      • toma_53@inbox.ru 19.07.2013 в 04:30

        Спасибо за рекомендации, скачала и установила Adobe Akrobat, прочла документ PDF без проблем, я хоть и пользователь со стажем, но все равно чайник по сравнению с молодыми<<< Отлично! >>>.

        • Аня 03.07.2013 в 09:29

          Спасибо за статью, очень полезная и наглядная! Отлично провели анализ!<<< Отлично! >>>

          • Алексей 20.03.2013 в 00:36

            Спасибо за детальную и толковую консультацию! С уважением Алексей.

            • Юлия 25.01.2013 в 11:16

              А можно подробнее про этот способ: "Непосредственно перенестить из текстового слоя посредством буфера обмена в Microsoft Word – в этом случае какой либо намек на форматирование теряется, ровно как и изображения."? Не понятно, как можно это сделать!

              • Денис 16.03.2013 в 15:22

                Если документ содержит сам текст (такое бывает когла документы не сканировался в pdf или дежавю) - просто выделяете курсором текст, жмёте правой кнопкой на нём, затем - жмёте "Копировать".

            • Валентин 13.01.2013 в 22:28

              Cпасибо, а как поступить ,если иэ скажем журнала в пдф или дэжавю нужно оставить только пару-тройку страниц?

              • JonyPenza 16.04.2012 в 22:00

                Если после каких-либо прог-конвертеров (например, после Free PDF to Word Doc Converter) получаем в DOC-файле вместо русского языка кракозябы, делать надо так:
                ВерхнееМеню-Сервис-ИсправитьПовреждённыйТекст-РусскийЯзык
                Ждать приходится иногда долго!

                • я 15.02.2012 в 19:19

                  статья помогла справиться с текстом пдф формата, спасибо, а про дежавю вопрос остался нерешённым, зачем тогда вообще такие форматы придумывать?!

                  • Сергей 24.09.2011 в 19:48

                    Огромное спасибо за четкие конкретные разъяснения. Вы сэкономили мне массу времени. Буду читать djvu в родном формате.

                    Добавить отзыв

                    загрузить другую
                    Ваш отзыв

                    Видео

                    02:08 Железо

                    Thermaltake Urban T31: обзор компьютерного корпуса

                    14 октября 20141772 0

                    Обзор компьютерного корпуса Thermaltake Urban T31. Основа корпуса изготовлена из конструкционной стали, верхняя и лицевая панели – из пластика, а передняя дверца для трёх отсеков 5,25 дюйма – из шлифованного металла. В стандартный набор разъёмов, расположенных в этой модели [..]

                    BenQ: презентация беспроводных проекционных решений

                    13 октября 20141775 0

                    Презентация новых беспроводных решений BenQ для передачи видеосигнала на проекторы "по воздуху". Представленные адаптеры позволяют транслировать изображение с мобильных устройств на большой экран по Wi-Fi. Подробности читайте в нашем материале BenQ показала [..]

                    Tt eSports Draconem: обзор коврика для мыши

                    09 октября 20141782 0

                    Обзор коврика для мыши Tt eSports Draconem. Основание коврика из шлифованного алюминия покрыто полимером, разным на ощупь с двух сторон, что позволяет выбирать между низким коэффициентом трения и высокой точностью позиционирования.

                    Cвежие новости

                    Все новости