2017-02-07 4 views
1

Ich habe eine Frage bezüglich der Aufteilung von PDF-Dateien. im Grunde habe ich eine Sammlung von PDF-Dateien, welche Dateien ich in Bezug auf Absatz teilen möchte. so zu jedem Abschnitt der pdf-Datei, um eine Datei für sich zu sein. Ich würde mich freuen, wenn Sie mir dabei helfen können, vorzugsweise in Python, aber wenn das nicht möglich ist, wird jede Sprache ausreichen.PDF-Dateien in Absätze zerlegen

+0

Was planen Sie mit Python zum Extrahieren des Textes aus PDF? pdf2text kann auch verwendet werden. – Radan

+0

Ich schreibe gerade ein Programm, das einen Unterprozessaufruf verwendet, um eine PDF mit pdftotext zu analysieren. Es ist ziemlich nützlich: https://en.wikipedia.org/wiki/Pdftotext – Steampunkery

+0

@Radan Ich möchte die Ähnlichkeit zwischen Absätzen berechnen. Alle PDF-Dateien bestehen aus mehreren Absätzen und ich möchte sehen, wie ähnlich die Absätze zueinander sind. aber zuerst muss ich die PDF-Dateien in Absätze aufteilen. – LoniF

Antwort

0

Sie können pdftotext für die oben genannten verwenden, wickeln Sie es in Python-Subprozess. Alternativ könnten Sie eine andere Bibliothek verwenden, die es bereits implizit wie texttract macht. Hier ist ein kurzes Beispiel, Hinweis: Ich habe 4 Leerzeichen als Trennzeichen verwendet, um den Text in eine Absatzliste zu konvertieren. Vielleicht möchten Sie eine andere Technik verwenden.

import re 
import textract 
#read the content of pdf as text 
text = textract.process('file_name.pdf') 
#use four space as paragraph delimiter to convert the text into list of paragraphs. 
print re.split('\s{4,}',text) 
+0

Danke für das Beispiel. es funktioniert gut für meinen Fall. – LoniF