Wie kann ich den Textinhalt (nicht Bilder) aus einem PDF extrahieren, während (Stil-) Layout ähnlich wie Google Docs beibehalten werden kann?So extrahieren Sie formatierten Textinhalt aus PDF
Antwort
Um den Text aus der PDF zu extrahieren UND seine Position zu erhalten, können Sie PDFMiner verwenden. PDFMiner kann das PDF auch direkt in HTML exportieren, wobei der Text an der richtigen Stelle bleibt.
Ich kenne Ihren Anwendungsfall nicht, aber es gibt viele Probleme, denen Sie begegnen können, da PDF wirklich präsentationsorientiert und nicht inhaltsorientiert ist, der Textfluss ist nicht kontinuierlich. Wenn Sie also möchten, dass der Text bearbeitbar ist, wird es keine leichte Aufgabe sein.
Wenn Sie nicht Ihr Herz dabei mit Python tun, kann Ghostscript dies für Sie tun können. Schauen Sie sich pdf2ascii (ein Skript, das mit GS geliefert wird) an, um den einfachen Text zu erhalten. Stile sind komplizierter, da sie auf verschiedene Arten spezifiziert werden können.
Wenn Sie wollen, es zu tun wie Google:
Google das PDF in ein Bild umwandelt, überlagert und dann das Bild, in dem Text highlightable Bereiche zu sein, mit JavaScript verwendet (die etwa wie Voodoo Magie ist) . Die Bereiche scheinen Text zu sein, wenn Sie mit dem Cursor über sie blättern, aber das ist nicht der Fall. Das hilft dir vielleicht nicht, das zu wissen, aber so machen sie es. Wenn Sie es rückentwickeln möchten, könnten Sie mit https://www.mercurial-scm.org/ beginnen. Auf der Homepage machen sie dasselbe mit JavaScript, um den Text hervorzuheben und kopierbar zu machen. Sie können den Text aus der PDF-Datei extrahieren und dessen Position auf der Seite mit einer der erwähnten Bibliotheken in den anderen Antworten finden. Dann können Sie ein extrahiertes Bild der Datei mit demselben Stil von JavaScript-Bereichen überlagern.
ah du hast recht - sie verwenden Bilder, was nicht das ist, was ich will, weil ich den Text manipulieren muss – hoju
Xpdf hat einen Dienstprogrammaufruf PDFtoText, der eine gute Arbeit leistet. http://foolabs.com/xpdf/download.html
Acrobat Professional kann die Aufgabe erledigen. Wählen Sie im Menü "Datei" den Befehl "Exportieren". Wählen Sie dann Text.
- 1. Nummer aus einer formatierten Textdatei extrahieren Java
- 2. So extrahieren Sie Bilder aus PDF mit Java (ohne pdfbox)
- 3. So extrahieren Sie FlateDecoded Images aus PDF mit PDFSharp
- 4. Text aus PDF extrahieren
- 5. PDF-Formularfeldnamen aus einem PDF-Formular extrahieren
- 6. Titel aus PDF-Dateien extrahieren?
- 7. So extrahieren Sie URLs aus dem Text
- 8. So extrahieren Sie Feldwerte aus Abfrageergebnis
- 9. Omnet: So extrahieren Sie Daten aus CMessage
- 10. So extrahieren Sie Features aus reinem Text?
- 11. So extrahieren Sie Daten aus einem Promise
- 12. So extrahieren Sie Daten aus Pyplot Abbildung
- 13. Extrahieren von Inhalt aus PDF mit PHP
- 14. Bild aus PDF extrahieren mit. Net C#
- 15. So extrahieren Sie Daten aus einer PDF-Datei und speichern sie in MySQL
- 16. R Extrahieren von Daten aus PDF-
- 17. Seite aus .pdf mit PHP extrahieren
- 18. Extrahieren Sie den gesamten Text mit Zeichenfolgenpositionen aus einem PDF
- 19. Alle Bilder aus der PDF-Datei extrahieren
- 20. Extrahieren Sie Text aus PDF-Datei mit Javascript
- 21. C# Text aus PDF mit PdfSharp extrahieren
- 22. Extrahieren von Text aus einer PDF-Datei
- 23. TIFF aus PDF extrahieren mit PDFBox v2
- 24. Bilder/Texte aus PDF extrahieren mit Perl
- 25. extrahieren Sie den ersten vollständig formatierten Satz aus einem HTML-Dump einer Webseite
- 26. Abschnitte von PDF extrahieren
- 27. So ermitteln Sie, ob TextView-Textinhalt abgeschnitten wurde
- 28. So drucken Sie (auf Papier) einen schön formatierten Datenrahmen
- 29. So extrahieren Sie Daten (Dateianzahl) aus MSI "Datei" Tabelle
- 30. So extrahieren Sie Metadaten aus Audiodateien unter iOS
Dieses Paket ist in Ubuntu unter dem Namen 'Python-pdfminer' verfügbar, und der Befehl ist' pdf2txt' . – naught101