2010-02-04 30 views

Antwort

9

Um den Text aus der PDF zu extrahieren UND seine Position zu erhalten, können Sie PDFMiner verwenden. PDFMiner kann das PDF auch direkt in HTML exportieren, wobei der Text an der richtigen Stelle bleibt.

Ich kenne Ihren Anwendungsfall nicht, aber es gibt viele Probleme, denen Sie begegnen können, da PDF wirklich präsentationsorientiert und nicht inhaltsorientiert ist, der Textfluss ist nicht kontinuierlich. Wenn Sie also möchten, dass der Text bearbeitbar ist, wird es keine leichte Aufgabe sein.

+0

Dieses Paket ist in Ubuntu unter dem Namen 'Python-pdfminer' verfügbar, und der Befehl ist' pdf2txt' . – naught101

6

Haben Sie versucht pyPDF oder ReportLab PDF-Bibliotheken? Ich persönlich habe sie nicht benutzt, aber du kannst sie ausprobieren. here ist auch nützlich

3

Wenn Sie nicht Ihr Herz dabei mit Python tun, kann Ghostscript dies für Sie tun können. Schauen Sie sich pdf2ascii (ein Skript, das mit GS geliefert wird) an, um den einfachen Text zu erhalten. Stile sind komplizierter, da sie auf verschiedene Arten spezifiziert werden können.

4

Wenn Sie wollen, es zu tun wie Google:

Google das PDF in ein Bild umwandelt, überlagert und dann das Bild, in dem Text highlightable Bereiche zu sein, mit JavaScript verwendet (die etwa wie Voodoo Magie ist) . Die Bereiche scheinen Text zu sein, wenn Sie mit dem Cursor über sie blättern, aber das ist nicht der Fall. Das hilft dir vielleicht nicht, das zu wissen, aber so machen sie es. Wenn Sie es rückentwickeln möchten, könnten Sie mit https://www.mercurial-scm.org/ beginnen. Auf der Homepage machen sie dasselbe mit JavaScript, um den Text hervorzuheben und kopierbar zu machen. Sie können den Text aus der PDF-Datei extrahieren und dessen Position auf der Seite mit einer der erwähnten Bibliotheken in den anderen Antworten finden. Dann können Sie ein extrahiertes Bild der Datei mit demselben Stil von JavaScript-Bereichen überlagern.

+0

ah du hast recht - sie verwenden Bilder, was nicht das ist, was ich will, weil ich den Text manipulieren muss – hoju

3

Acrobat Professional kann die Aufgabe erledigen. Wählen Sie im Menü "Datei" den Befehl "Exportieren". Wählen Sie dann Text.

Verwandte Themen