• Авторизация


Как извлечь текст из файла в формате PDF 18-02-2010 07:15 к комментариям - к полной версии - понравилось!

Это цитата сообщения BraveDefender Оригинальное сообщение

Как извлечь текст из файла в формате PDF



Теория

Portable Document Format (PDF) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript.

[показать]

В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader (русифицированная версия), а также программы сторонних разработчиков.

Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов.

В этом формате распространяется большое количество сопутствующей документации (подробнее в Википедии).

Практика

Как извлечь текст из файла в формате PDF

1. «Save as text»

В последних версиях Adobe Reader в меню «Файл» существует функция «Сохранить как текст». Если в исходном файле отсутствуют защиты текста, используя эту функцию можно за один клик преобразовать все страницы исходного файла в открытый для редактирования текст.

[показать]

2. «Text Select»

Также в Adobe Reader имеется простой инструмент Text Select (Выделение текста), который хорошо работает с отдельными строками текста. Чтобы выделить нужный фрагмент текста, нужно вытягивать прямоугольник выделения до конца отрывка текста, скопировать выделенный фрагмент в буфер обмена и вставить в любую программу-редактор текстов.

[показать]

3. OCR-программы

Если установлена защита от копирования или при копировании текст сохраняется в виде вопросов и символов, можно воспользоваться специализированным программным обеспечением для распознавания текста. Это так называемые OCR-программы (Optical Character Recognition - оптическое распознавание знаков), которые преобразуют PDF-файл в редактируемый текст для последующей работы с ним:

4. Программы-конверторы

5. Бесплатные онлайн-сервисы

  • zamzar.com > ZamZar - бесплатный онлайн конвертор файлов, способный преобразовать PDF документ во многие графические и текстовые форматы. Сервис работает через электронную почту. Лимит на размер исходного файла - 100 Мб. Файл храниться на сервере в течение 24 часов.
  • freepdfconvert.com > FreePDFConvert - конвертация PDF в Word (doc), Excel (xls) или RichText (rtf), извлечение картинок из PDF. После конвертации сервис предоставляет возможности: скачать файл, отправить его на Ваш почтовый ящик, удалить файл с сервера. Интервал до отправки следующего файла – 30 минут.
  • pdfonline.com > PDFOnline - преобразование документов PDF в Word (RTF). Сервис не требует указания почтового ящика и не накладывает ограничений на размер файла и количество загрузок по времени.
  • freepdftoword.org > бесплатный сервис от производителей программного обеспечения Solid. Для конвертации файла PDF в отформатированный документ Word разработчики предлагают предварительно отправить им PDF документ по электронной почте - и уже после этого получите результат конвертирования в Word.

Как преобразовать текст в формат PDF бесплатно, читайте в следующем посте.

Использовались материалы сайтов: wikipedia.org, genon.ru, studia.at.ua, bravedefender.ru

ЕЩЁ ОДНА ссылочка: http://my-soft-blog.net/293-pdftextonline-konvertaciya-pdf-v-tekst-onlajn.html
вверх^ к полной версии понравилось! в evernote


Вы сейчас не можете прокомментировать это сообщение.

Дневник Как извлечь текст из файла в формате PDF | Gera_cl - Дневник Gera_cl | Лента друзей Gera_cl / Полная версия Добавить в друзья Страницы: раньше»