Для извлечения изображений и текста из PDF файлов в Ubuntu/Linux Mint, во-первых надо установить необходимую утилиту.
Откройте терминал (Ctrl+Alt+T), скопируйте и выполните эту команду:
sudo apt-get install poppler-utils
Следующая команда извлечет все изображения из "pdffile.pdf" и сохранит их в каталоге /home/<username>/pdfimages
pdfimages -j pdffile.pdf ~/pdfimages/
JPEG файлы будут сохранены с расширением PPM в pdfimages, если не указан параметр "-j" (для JPEG).
Эта команда извлечет сам текст и поместит файл с тем же именем, что и PDF, но с расширением TXT (pdffile.txt) в том же каталоге, что и исходный файл:
pdftotext pdffile.pdf
pdffile.pdf надо заменить на сам файл.
Следует обратить внимание на тот факт, что эта команда pdftotext pdffile.pdf будет извлекать только реальный текст. Если PDF содержит изображения с текстом, напечатанными на них, то эти текстовые подписи не сохраняются данной командой.
Вот и всё.
Удачи.
Комментариев нет :
Отправить комментарий
Если у Вас появились вопросы или мнения, вы можете задать или оставить их здесь.
Спам и флуд будут жёстко караться вечной блокировкой их оставляющих!
If You have any questions or opinions about, just leave'em here.
Spamers & flooders will be blocked forever!!!