Ich habe eine Frage bezüglich der Aufteilung von PDF-Dateien. im Grunde habe ich eine Sammlung von PDF-Dateien, welche Dateien ich in Bezug auf Absatz teilen möchte. so zu jedem Abschnitt der pdf-Datei, um eine Datei für sich zu sein. Ich würde mich freuen, wenn Sie mir dabei helfen können, vorzugsweise in Python, aber wenn das nicht möglich ist, wird jede Sprache ausreichen.PDF-Dateien in Absätze zerlegen
1
A
Antwort
0
Sie können pdftotext für die oben genannten verwenden, wickeln Sie es in Python-Subprozess. Alternativ könnten Sie eine andere Bibliothek verwenden, die es bereits implizit wie texttract macht. Hier ist ein kurzes Beispiel, Hinweis: Ich habe 4 Leerzeichen als Trennzeichen verwendet, um den Text in eine Absatzliste zu konvertieren. Vielleicht möchten Sie eine andere Technik verwenden.
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)
+0
Danke für das Beispiel. es funktioniert gut für meinen Fall. – LoniF
Verwandte Themen
- 1. Dokumente in Absätze zerlegen
- 2. Absätze in Unix trennen
- 3. Funktionale Absätze
- 4. Zeichenfolge in Double zerlegen
- 5. Komplexe und zusammengesetzte Sätze in nltk zerlegen/zerlegen
- 6. die Absätze in Textview deaktivieren?
- 7. Python löscht Absätze in Datei
- 8. VBA Zeichenfolge in Tokens zerlegen
- 9. Zerlegen von Zeichenfolgen in Javascript
- 10. Ergebnisse in chartjs Liniendiagramm zerlegen
- 11. ggsurvplot - Legenden in Zeilen zerlegen
- 12. Sätze (Zeilen) in Wörter zerlegen
- 13. Ein Bild in Kacheln zerlegen
- 14. Zerlegen mathematischen Ausdruck in Schritten
- 15. Wie vergleicht man Absätze?
- 16. Nummerierte Absätze mit reportlab
- 17. JavaScript Swap drei Absätze
- 18. gdb eine Zeile zerlegen
- 19. Zerlegen eines Arrays
- 20. Pandas zerlegen Säule
- 21. Klassendiagramm in Pakete in UML zerlegen
- 22. Pandoc fügt zusätzliche Absätze hinzu
- 23. Zuordnung Absätze in der Liste html/css
- 24. Wie teile ich Text in Absätze
- 25. Dom Split Text in Überschriften und Absätze
- 26. Lesen Sie Absätze in JSON/PHP/Android
- 27. preg_replace: Umwandlung von Zeilenumbrüchen in Absätze
- 28. Absätze als PDF dynamisch speichern?
- 29. MS Word Makro - Absätze löschen
- 30. Die Absätze werden falsch gezählt
Was planen Sie mit Python zum Extrahieren des Textes aus PDF? pdf2text kann auch verwendet werden. – Radan
Ich schreibe gerade ein Programm, das einen Unterprozessaufruf verwendet, um eine PDF mit pdftotext zu analysieren. Es ist ziemlich nützlich: https://en.wikipedia.org/wiki/Pdftotext – Steampunkery
@Radan Ich möchte die Ähnlichkeit zwischen Absätzen berechnen. Alle PDF-Dateien bestehen aus mehreren Absätzen und ich möchte sehen, wie ähnlich die Absätze zueinander sind. aber zuerst muss ich die PDF-Dateien in Absätze aufteilen. – LoniF