
В данной статье я вам расскажу как из pdf-файлов извлекать данные, а именно текст и изображения. Делать мы это будем с помощью пакета poppler-utils.
Установка poppler-utils
Итак, для установки воспользуйтесь одной командой:
1 |
sudo apt-get install poppler-utils |
Как пользоваться poppler-utils
Итак, начнём с изображений. К примеру нам нужно извлечь все изображения из файла pdffile.pdf в разрешении jpg в домашнюю директорию. Для этого воспользуйтесь данной командой:
1 |
pdfimages -j pdffile.pdf ~/ |
Разберу команду по пунктам:
- -j - данный параметр указывает, что изображения должны быть в формате jpg
- pdffile.pdf - указываем из какого файла делать экспорт
- ~/ - указываем куда экспортировать
Для экспорта текста воспользуйтесь такой командой:
1 |
pdftotext pdffile.pdf |
Данной командой вы экспортируете весь текст из файла pdffile.pdf в ту же директорию, где находится данный файл.
Но учтите, что извлекаться будет только "настоящий" текст. Текст, который на самом деле используется как изображение, извлекаться не будет.