Экспортируем данные из PDF в Ubuntu

/www/pages/modesco/ubuntovod

В данной статье я вам расскажу как из pdf-файлов извлекать данные, а именно текст и изображения. Делать мы это будем с помощью пакета poppler-utils.

Установка poppler-utils

Итак, для установки воспользуйтесь одной командой:

sudo apt-get install poppler-utils

Как пользоваться poppler-utils

Итак, начнём с изображений. К примеру нам нужно извлечь все изображения из файла pdffile.pdf в разрешении jpg в домашнюю директорию. Для этого воспользуйтесь данной командой:

pdfimages -j pdffile.pdf ~/

Разберу команду по пунктам:

  • -j - данный параметр указывает, что изображения должны быть в формате jpg
  • pdffile.pdf - указываем из какого файла делать экспорт
  • ~/ - указываем куда экспортировать

Для экспорта текста воспользуйтесь такой командой:

pdftotext pdffile.pdf

Данной командой вы экспортируете весь текст из файла pdffile.pdf в ту же директорию, где находится данный файл.

Но учтите, что извлекаться будет только "настоящий" текст. Текст, который на самом деле используется как изображение, извлекаться не будет.