Как конвертировать PDF-файл в редактируемый текст с помощью командной строки в Linux

Существуют различные причины, по которым вы можете захотеть преобразовать файл PDF в редактируемый текст. Может быть, вам нужно пересмотреть старый документ, и все, что у вас есть, это его PDF-версия. Конвертировать PDF-файлы в Windows легко, но что если вы используете Linux?

Не волнуйтесь. Мы покажем вам, как легко преобразовать PDF-файлы в редактируемый текст, используя инструмент командной строки pdftotext, который является частью пакета «poppler-utils». Этот инструмент может быть уже установлен. Чтобы проверить, установлен ли pdftotext в вашей системе, нажмите «Ctrl + Alt + T», чтобы открыть окно терминала. Введите в командной строке следующую команду и нажмите «Enter».

dpkg –s poppler-utils

ПРИМЕЧАНИЕ. Когда мы говорим ввести что-то в этой статье, и вокруг текста есть кавычки, НЕ вводите кавычки, если мы не укажем иное.

Если pdftotext не установлен, введите в командной строке следующую команду и нажмите «Enter».

sudo apt-get установить poppler-utils

Введите пароль при появлении запроса и нажмите «Ввод».

В пакете poppler-utils доступно несколько инструментов для преобразования PDF в различные форматы, управления файлами PDF и извлечения информации из файлов.

Ниже приведена основная команда для преобразования файла PDF в редактируемый текстовый файл. Нажмите «Ctrl + Alt + T», чтобы открыть окно терминала, введите команду в командной строке и нажмите «Enter».

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Измените путь к каждому файлу, чтобы он соответствовал местоположению и имени вашего исходного PDF-файла, и где вы хотите сохранить полученный текстовый файл. Кроме того, измените имена файлов, чтобы они соответствовали именам ваших файлов.

Текстовый файл создан и может быть открыт так же, как любой другой текстовый файл в Linux.

Преобразованный текст может иметь разрывы строк в нежелательных местах. Разрывы строк вставляются после каждой строки текста в файле PDF.

Вы можете сохранить макет документа (верхние колонтитулы, нижние колонтитулы, пейджинг и т. Д.) Из исходного PDF-файла в преобразованном текстовом файле, используя флаг «-layout».

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Если вы хотите преобразовать только диапазон страниц в файле PDF, используйте флаги «-f» и «-l» (строчная буква «L»), чтобы указать первую и последнюю страницы в диапазоне, который вы хотите преобразовать.

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Чтобы преобразовать файл PDF, который защищен и зашифрован паролем владельца, используйте флаг «-opw» (первый символ в флаге – это строчная буква «О», а не ноль).

pdftotext -opw ‘password’ /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Измените «пароль» на тот, который использовался для защиты исходного файла PDF, который конвертируется. Убедитесь, что в пароле есть одинарные кавычки, а не двойные.

Если файл PDF защищен и зашифрован паролем пользователя, используйте флаг «-upw» вместо флага «-opw». Остальная часть команды такая же.

Вы также можете указать тип символа конца строки, который применяется к преобразованному тексту. Это особенно полезно, если вы планируете получить доступ к файлу в другой операционной системе, например Windows или Mac. Для этого используйте флаг «-eol» (средний символ в флаге – строчная буква «O», а не ноль), за которым следует пробел и тип символа конца строки, который вы хотите использовать (« unix »,« dos »или« mac »).

ПРИМЕЧАНИЕ. Если вы не укажете имя файла для текстового файла, pdftotext автоматически использует базу имени файла PDF и добавляет расширение «.txt». Например, «file.pdf» будет преобразован в «file.txt». Если текстовый файл указан как «-», преобразованный текст отправляется на стандартный вывод, что означает, что текст отображается в окне терминала, а не сохраняется в файл.

Чтобы закрыть окно терминала, нажмите кнопку «Х» в верхнем левом углу.

Для получения дополнительной информации о команде pdftotext введите «man page pdftotext» в командной строке в окне терминала.

Оцените статью
TutoryBird.Ru
Добавить комментарий