So extrahieren Sie formatierten Textinhalt aus PDF

15

Wie kann ich den Textinhalt (nicht Bilder) aus einem PDF extrahieren, während (Stil-) Layout ähnlich wie Google Docs beibehalten werden kann?So extrahieren Sie formatierten Textinhalt aus PDF

Quelle

2010-02-04 hoju

9

Um den Text aus der PDF zu extrahieren UND seine Position zu erhalten, können Sie PDFMiner verwenden. PDFMiner kann das PDF auch direkt in HTML exportieren, wobei der Text an der richtigen Stelle bleibt.

Ich kenne Ihren Anwendungsfall nicht, aber es gibt viele Probleme, denen Sie begegnen können, da PDF wirklich präsentationsorientiert und nicht inhaltsorientiert ist, der Textfluss ist nicht kontinuierlich. Wenn Sie also möchten, dass der Text bearbeitbar ist, wird es keine leichte Aufgabe sein.

Quelle

2010-02-04 02:13:20 Etienne

+0

Dieses Paket ist in Ubuntu unter dem Namen 'Python-pdfminer' verfügbar, und der Befehl ist' pdf2txt' . – naught101

6

Haben Sie versucht pyPDF oder ReportLab PDF-Bibliotheken? Ich persönlich habe sie nicht benutzt, aber du kannst sie ausprobieren. here ist auch nützlich

Quelle

2010-02-04 01:04:06 ghostdog74

3

Wenn Sie nicht Ihr Herz dabei mit Python tun, kann Ghostscript dies für Sie tun können. Schauen Sie sich pdf2ascii (ein Skript, das mit GS geliefert wird) an, um den einfachen Text zu erhalten. Stile sind komplizierter, da sie auf verschiedene Arten spezifiziert werden können.

Quelle

2010-02-04 01:23:43

4

Wenn Sie wollen, es zu tun wie Google:

Google das PDF in ein Bild umwandelt, überlagert und dann das Bild, in dem Text highlightable Bereiche zu sein, mit JavaScript verwendet (die etwa wie Voodoo Magie ist) . Die Bereiche scheinen Text zu sein, wenn Sie mit dem Cursor über sie blättern, aber das ist nicht der Fall. Das hilft dir vielleicht nicht, das zu wissen, aber so machen sie es. Wenn Sie es rückentwickeln möchten, könnten Sie mit https://www.mercurial-scm.org/ beginnen. Auf der Homepage machen sie dasselbe mit JavaScript, um den Text hervorzuheben und kopierbar zu machen. Sie können den Text aus der PDF-Datei extrahieren und dessen Position auf der Seite mit einer der erwähnten Bibliotheken in den anderen Antworten finden. Dann können Sie ein extrahiertes Bild der Datei mit demselben Stil von JavaScript-Bereichen überlagern.

Quelle

2010-02-04 01:25:54 orokusaki

+0

ah du hast recht - sie verwenden Bilder, was nicht das ist, was ich will, weil ich den Text manipulieren muss – hoju

4

Xpdf hat einen Dienstprogrammaufruf PDFtoText, der eine gute Arbeit leistet. http://foolabs.com/xpdf/download.html

Quelle

2011-07-05 17:21:56 chrisfs

3

Acrobat Professional kann die Aufgabe erledigen. Wählen Sie im Menü "Datei" den Befehl "Exportieren". Wählen Sie dann Text.

Quelle

2012-10-24 19:39:41 Shawn

So extrahieren Sie formatierten Textinhalt aus PDF

Antwort

Verwandte Themen