Теория
Portable Document Format (PDF) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript.
В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader (русифицированная версия), а также программы сторонних разработчиков.
Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов.
В этом формате распространяется большое количество сопутствующей документации (подробнее в Википедии).
Практика
Как извлечь текст из файла в формате PDF
1. «Save as text»
В последних версиях Adobe Reader в меню «Файл» существует функция «Сохранить как текст». Если в исходном файле отсутствуют защиты текста, используя эту функцию можно за один клик преобразовать все страницы исходного файла в открытый для редактирования текст.
2. «Text Select»
Также в Adobe Reader имеется простой инструмент Text Select (Выделение текста), который хорошо работает с отдельными строками текста. Чтобы выделить нужный фрагмент текста, нужно вытягивать прямоугольник выделения до конца отрывка текста, скопировать выделенный фрагмент в буфер обмена и вставить в любую программу-редактор текстов.
3. OCR-программы
Если установлена защита от копирования или при копировании текст сохраняется в виде вопросов и символов, можно воспользоваться специализированным программным обеспечением для распознавания текста. Это так называемые OCR-программы (Optical Character Recognition - оптическое распознавание знаков), которые преобразуют PDF-файл в редактируемый текст для последующей работы с ним:
4. Программы-конверторы
5. Бесплатные онлайн-сервисы
Как преобразовать текст в формат PDF бесплатно, читайте в следующем посте.
Использовались материалы сайтов: wikipedia.org, genon.ru, studia.at.ua, bravedefender.ru
ЕЩЁ ОДНА ссылочка: http://my-soft-blog.net/293-pdftextonline-konvertaciya-pdf-v-tekst-onlajn.html