So konvertieren Sie eine PDF-Datei in ein Textdokument unter Linux
Im Gegensatz zu einer Textdatei können Sie ein PDF nicht direkt bearbeiten. Es gibt mehrere Möglichkeiten, PDF-Dateien mit Text zu generieren. Aber was ist, wenn Sie den umgekehrten Weg gehen und PDFs in Textdateien konvertieren möchten?
Glücklicherweise können Sie diese Dateien mit Linux einfach vom Terminal aus ändern. In diesem Artikel wird gezeigt, wie Sie eine PDF-Datei unter Linux in ein Textdokument konvertieren.
Konvertieren von PDF in Text über das Terminal
Poppler ist eine Softwarebibliothek zum Rendern und Ändern von PDF-Dateien. Es enthält ein Dienstprogramm namens pdftotext , mit dem Benutzer Textdateien aus PDFs generieren können. Da poppler-utils kein Bestandteil der Standard-Linux-Pakete ist, müssen Sie es manuell mit einem Paketmanager installieren.
Unter Ubuntu und Debian:
sudo apt install poppler-utils
So installieren Sie Poppler unter Arch Linux:
sudo pacman -S poppler
Die Installation des poppler-utils- Pakets auf CentOS, Fedora und anderen RHEL-basierten Distributionen ist einfach.
sudo dnf install poppler-utils
sudo yum install poppler-utils
Konvertieren einer gesamten PDF-Datei in Text
Die grundlegende Syntax des Befehls pdftotext lautet:
pdftotext [options] pdffile textfile
…wobei pdffile der absolute oder relative Pfad zur PDF-Datei und textfile der Name der Ausgabedatei ist.
So konvertieren Sie beispielsweise lorem-ipsum.pdf in eine Textdatei:
pdftotext lorem-ipsum.pdf text.txt
Wenn die zu konvertierende Datei Wasserzeichen oder nicht ausgerichteten Text enthält, können Sie diese mit dem Flag -nodiag in der Ausgabe verwerfen.
pdftotext -nodiag lorem-ipsum.pdf random.text
Seiten innerhalb eines bestimmten Bereichs verarbeiten
Verwenden Sie die Flags -f und -l, wenn Sie Seiten konvertieren möchten, die in einen bestimmten Bereich fallen. Um beispielsweise die Seiten eins bis fünf in lorem-ipsum.pdf in Text umzuwandeln :
pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt
So konvertieren Sie nur die erste Seite der PDF-Datei:
pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt
Konvertieren Sie passwortgeschützte PDF-Dateien in Text
Pdftotext kann sogar passwortgeschützte PDFs in Textdateien umwandeln. Die Flags -upw und -opw , die für Benutzerkennwort bzw. Besitzerkennwort stehen, übernehmen die Authentifizierung bei der Konvertierung der PDF-Dateien.
pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt
Stellen Sie sicher, dass Sie das Passwort durch das Passwort der PDF-Datei ersetzen.
Sie können auch mehrere Flags kombinieren, um die gewünschte Ausgabe zu erhalten. So konvertieren Sie beispielsweise die Seiten eins bis drei einer passwortgeschützten PDF-Datei in Text:
pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt
PDF grafisch in eine Textdatei konvertieren
Wenn die Arbeit mit der Befehlszeile nicht Ihr Ding ist, können Sie PDFs mit grafischer Software wie Calibre in Textdateien konvertieren. Es ist eine E-Book-Verwaltungsanwendung, mit der Sie PDF-Dateien auf Ihrem System anzeigen, organisieren und ändern können.
Calibre ist in den offiziellen Linux-Distributions-Repositorys verfügbar und kann von jedem mit einem Paketmanager heruntergeladen werden.
So installieren Sie Calibre unter Ubuntu und Debian:
sudo apt install calibre
Unter Arch-Linux:
sudo pacman -S calibre
Auf RHEL-basierten Distributionen wie CentOS und Fedora können Sie Calibre entweder mit DNF oder Yum herunterladen.
sudo dnf install calibre
sudo yum install calibre
So verwenden Sie Calibre zum Konvertieren von PDF-Dateien
Starten Sie Calibre nach der Installation auf Ihrem System über das Anwendungsmenü . Alternativ können Sie Calibre vom Terminal aus starten, indem Sie Folgendes eingeben:
calibre
So generieren Sie Textdateien mit PDF mit Calibre:
- Klicken Sie im Menü auf die Option Bücher hinzufügen.
- Suchen Sie die PDF-Datei, die Sie konvertieren möchten, und wählen Sie sie aus.
- Markieren Sie die PDF-Datei im mittleren Bereich und wählen Sie im Menü Bücher konvertieren aus.
- Wählen Sie aus der Dropdown-Liste Ausgabeformat die Option TXT aus .
- Klicken Sie abschließend auf OK, um fortzufahren.
Calibre beginnt nun mit der Konvertierung der angegebenen PDF-Datei in ein Textdokument. Sie können den Status des Prozesses überprüfen, indem Sie auf die Option Jobs unten rechts im Fenster klicken.
Arbeiten mit PDF-Dateien unter Linux
Wenn Sie ein Dokument mit jemandem teilen möchten, ist es am effizientesten, es vor dem Teilen in ein PDF zu konvertieren. Früher mussten Benutzer einen dedizierten PDF-Viewer auf ihrem System installieren, um PDF-Dateien anzuzeigen, aber jetzt verfügt fast jeder Browser über einen integrierten PDF-Viewer.
Sie können mehrere Anwendungen finden, die es einem Benutzer ermöglichen, PDF-Dateien einfach anzuzeigen und zu bearbeiten. Viele Linux-Installationen werden mit LibreOffice ausgeliefert, einer Office-Software-Suite, die als PDF-Editor verwendet werden kann.