Compizomania: Извлечение данных из PDF файлов в Ubuntu/Linux Mint

20 июня 2012

Извлечение данных из PDF файлов в Ubuntu/Linux Mint

Для извлечения изображений и текста из PDF файлов в Ubuntu/Linux Mint, во-первых надо установить необходимую утилиту.

Откройте терминал (Ctrl+Alt+T), скопируйте и выполните эту команду:

sudo apt-get install poppler-utils

Следующая команда извлечет все изображения из "pdffile.pdf" и сохранит их в каталоге /home/<username>/pdfimages

pdfimages -j pdffile.pdf ~/pdfimages/

JPEG файлы будут сохранены с расширением PPM в pdfimages, если не указан параметр "-j" (для JPEG).

Эта команда извлечет сам текст и поместит файл с тем же именем, что и PDF, но с расширением TXT (pdffile.txt) в том же каталоге, что и исходный файл:

pdftotext pdffile.pdf

pdffile.pdf надо заменить на сам файл.

Следует обратить внимание на тот факт, что эта команда pdftotext pdffile.pdf будет извлекать только реальный текст. Если PDF содержит изображения с текстом, напечатанными на них, то эти текстовые подписи не сохраняются данной командой.

Вот и всё.

Удачи.

Комментариев нет :

Отправить комментарий

Если у Вас появились вопросы или мнения, вы можете задать или оставить их здесь.
Спам и флуд будут жёстко караться вечной блокировкой их оставляющих!

If You have any questions or opinions about, just leave'em here.
Spamers & flooders will be blocked forever!!!