Как извлечь фото с PDF файлов

Экспорт изображений из PDF в Linux

Вы можете очень легко конвертировать PDF файлы в редактируемый текст в Linux с помощью пакета "pdftotext" который входит в утилиту Poppler-Utils, для конвертации как всегда мы используем инструмент командная строка(терминал). В данном материале я собираюсь рассмотреть способ получения фото которые используются в PDF файле. Вы не задумывались над тем, а можно ли получить все фото которые используются в оригинальном PDF файле, думаю задумывались но думали что нет для этого пока инструментов. Это конечно не так, в Linux это возможно и для этого используется утилита под названием "pdfimages".

извлекаем и сохраняем изображения из PDF-файла

1. Утилита "pdfimages" так же является частью пакета Poppler-Utils. Как мы уже обсуждали ранее в материале, для работы утилиты pdfimages нужно чтобы в системе был установлен пакет - Poppler-Utils, если не установлен то нужно установить выполнив в терминале следующую команду.

sudo apt-get install poppler-utils

Ниже приводится пример основной команды которая используется для извлечения фото из PDF-файла. Нажмите "Ctrl + Alt + T", чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу "Enter".

pdfimages /home/linux/Документы/Book.pdf /home/linux/Изображения/image
  • По умолчанию при выполнении команды выше, для изображений которые извлекаются используется формат PPM (Portable) растровые изображения не-монохромные, или PBM (портативные растровые) для монохромных изображений. Эти форматы вполне работоспособны и фото легко просматриваются после работы команды выше.
  • ПРИМЕЧАНИЕ: При работе команды выше вы получаете два изображения для каждого изображения которое используется в вашем PDF файле. Второе изображение для каждого изображения является пустым, что-то на подобии демо фото и оригинала.

2. Думаю у вас уже возник вопрос, а как извлечь фото например в jpg формате, а не в формате по умолчанию. Для создания графических файлов .jpg формата, добавьте флаг "-j" к команде, как показано в примере ниже.

pdfimages -j /home/linux/Документы/Book.pdf /home/linux/Изображения/image

ПРИМЕЧАНИЕ: Вы также можете изменить формат по умолчанию на PNG, используя флаг "-png" или TIFF, используя флаг "-tiff", это пишется в справке к утилите хотя у меня не получилось преобразовать в png, но в jpg без особых на то проблем, все конвертируется легко.

3. Если вы только хотите извлечь изображения, после определенной страницы, используйте флаг "-f" после которой указывается номер страницы с которой начнется конвертация, чтобы преобразовать, посмотрите пример как показано ниже.

pdfimages -f 2 -j /home/linux/Документы/Book.pdf /home/linux/Изображения/image

То есть мы извлекаем фото начиная с второй страницы пропуская первую, для того чтобы сделать наоборот, указав до какой страницы нам нужно выполнить конвертацию, смотрим пример команды ниже.

pdfimages -l 1 -j /home/linux/Документы/Book.pdf /home/linux/Изображения/image
  • То есть командой выше мы извлекаем фото лишь с первой страницы.

4. Как я уже ранее писал, если владелец зашифровал файл в формате PDF и создал пароль, используйте флаг "-opw" флаг должен быть завернут в одинарные кавычки, не двойные. Если файл просто защищен паролем используйте флаг "-upw".

pdfimages -0pw 'password' -j /home/linux/Документы/Book.pdf /home/linux/Изображения/image
pdfimages -upw 'password' -j /home/linux/Документы/Book.pdf /home/linux/Изображения/image

На этом пожалуй материал окончен, будет вопросы, обязательно спрашивайте в комментариях к материалу ниже, всем удачи.

Лицензия: CC BY-SA 4.0

Похожие материалы:
Помогла ли вам статья?
Да Нет
Статья оказалась полезной для 0 человек
avatar