Вы можете легко конвертировать PDF-файлы в редактируемый текст в Linux с помощью инструмента командной строки «pdftotext». Однако если в исходном файле PDF есть изображения, они не извлекаются. Чтобы извлечь изображения из файла PDF, вы можете использовать другой инструмент командной строки под названием «pdfimages».
ПРИМЕЧАНИЕ. Когда мы говорим ввести что-то в этой статье, и вокруг текста есть кавычки, НЕ вводите кавычки, если мы не укажем иное.
Инструмент «pdfimages» является частью пакета poppler-utils. Вы можете проверить, установлен ли он в вашей системе, и при необходимости установить его, используя шаги, описанные в этой статье.
Чтобы извлечь изображения из файла PDF с помощью pdfimages, нажмите «Ctrl + Alt + T», чтобы открыть окно терминала. Введите в командной строке следующую команду.
pdfimages /home/lori/Documents/SampleWithImages.pdf/home/lori/Документы/ExtractedImages/image
ПРИМЕЧАНИЕ. Для всех команд, показанных в этой статье, замените первый путь в команде и имя файла PDF на путь и имя файла для исходного файла PDF. Второй путь должен быть путем к корневой папке, в которую вы хотите сохранить извлеченные изображения. Слово «изображение» в конце второго пути представляет все, что вы хотите предварять ваше имя файла. Имена файлов изображений нумеруются автоматически (000, 001, 002, 003 и т. Д.). Если вы хотите добавить текст в начало каждого изображения, введите этот текст в конце второго пути. В нашем примере каждое имя файла изображения будет начинаться с «image», например, image-001.ppm, image-002.ppm и т. Д. Между указанным вами текстом и номером добавляется тире.
Формат изображения по умолчанию – PPM (переносимое растровое изображение) для немонохромных изображений или PBM (переносимое растровое изображение) для монохромных изображений. Эти форматы предназначены для легкого обмена между платформами.
ПРИМЕЧАНИЕ. Вы можете получить два файла изображения для каждого изображения в вашем файле PDF. Второе изображение для каждого изображения пустое, поэтому вы сможете определить, какие изображения содержат изображения из файла, по миниатюре файла в диспетчере файлов.
Чтобы создать файлы изображений .jpg, добавьте в команду параметр «-j», как показано ниже.
pdfimages -j /home/lori/Documents/SampleWithImages.pdf/home/lori/Документы/ExtractedImages/image
ПРИМЕЧАНИЕ. Вы также можете изменить вывод по умолчанию на PNG, используя опцию «-png» или TIFF, используя опцию «-tiff».
Основной файл изображения для каждого изображения сохраняется в виде файла .jpg. Второе пустое изображение – это файл .ppm или .pbm.
Если вы хотите преобразовывать изображения только на определенной странице и после нее, используйте параметр «-f» с номером, чтобы указать первую страницу для преобразования, как показано в примере команды ниже.
pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf/home/lori/Документы/Извлеченные изображения/изображение
ПРИМЕЧАНИЕ. Мы объединили параметр «-j» с параметром «-f», чтобы получить изображения .jpg, и сделали то же самое с параметром «-l», упомянутым ниже.
Чтобы преобразовать все изображения до и на определенной странице, используйте параметр «-l» (строчная буква «L», а не число «1») с номером, указывающим последнюю страницу для преобразования, как показано ниже.
pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf/home/lori/Документы/Извлеченные изображения/изображение
ПРИМЕЧАНИЕ. Можно использовать параметры «-f» и «-l» для преобразования изображений в определенном диапазоне страниц в середине документа.
Если в файле PDF есть пароль владельца, используйте параметр «-opw» и пароль в одинарных кавычках, как показано ниже. Если пароль в файле PDF является паролем пользователя, используйте параметр «-upw» вместо пароля.
ПРИМЕЧАНИЕ. Убедитесь, что в команде указаны одинарные кавычки вокруг вашего пароля.
pdfimages -opw ‘password’ -j /home/lori/Documents/SampleWithImages.pdf/home/lori/Документы/ExtractedImages/image
Для получения дополнительной информации об использовании команды pdfimages введите «pdfimages» в командной строке в окне терминала и нажмите «Enter». Команда использования отображается со списком параметров, доступных для использования в команде.