20 июня 2012

Извлечение данных из PDF файлов в Ubuntu/Linux Mint


Для извлечения изображений и текста из PDF файлов в Ubuntu/Linux Mint, во-первых надо установить необходимую утилиту.

Откройте терминал (Ctrl+Alt+T), скопируйте и выполните эту команду:

sudo apt-get install poppler-utils

Следующая команда извлечет все изображения из "pdffile.pdf" и сохранит их в каталоге /home/<username>/pdfimages

pdfimages -j pdffile.pdf ~/pdfimages/

JPEG файлы будут сохранены с расширением PPM в pdfimages, если не указан  параметр "-j" (для JPEG).

Эта команда извлечет сам текст и поместит файл с тем же именем, что и PDF, но с расширением TXT (pdffile.txt) в том же каталоге, что и исходный файл:

pdftotext pdffile.pdf

pdffile.pdf надо заменить на сам файл.

Следует обратить внимание на тот факт, что эта команда pdftotext pdffile.pdf будет извлекать только реальный текст.  Если PDF содержит изображения с текстом, напечатанными на них, то эти текстовые подписи не сохраняются данной командой.

Вот и всё.

Удачи.

Комментариев нет :

Отправить комментарий