2017-11-18 5 views
-1

Ich bekomme keine Lösung dafür haben wir Option zum Extrahieren ganzen Textes mit Pypdf, aber ich möchte den Text Zeile für Zeile extrahieren. Jede Hilfe wäre willkommen. DankWie extrahiere ich Zeile für Zeile aus Pdf in Python?

+0

StackOverflow erwartet, dass Sie [versuchen, Ihr eigenes Problem zuerst zu lösen] (http://meta.stackoverflow.com/questions/261592), und wir [beantworten auch keine Hausaufgabenfragen] (https: // softwareengineering.meta.stackexchange.com/questions/6166). Bitte aktualisieren Sie Ihre Frage, um zu zeigen, was Sie bereits in einem [minimalen, vollständigen und überprüfbaren Beispiel] (http://stackoverflow.com/help/mcve) versucht haben. Weitere Informationen finden Sie unter [Fragen stellen] (http://stackoverflow.com/help/how-to-ask) und nehmen Sie die [Tour der Website] (http://stackoverflow.com/tour)) :) – Barmar

+0

Ich versuche das, aber es gibt den ganzen Text. Ich möchte Zeile für Zeile Text extrahieren. import PyPDF2 pdfFileObj = open (R'C: \ Benutzer \ Desktop \ new.pdf‘, 'rb') PdfReader = PyPDF2.PdfFileReader (pdfFileObj) pageObj = pdfReader.getPage (0) text = Str (pageObj .extractText()) –

+0

Setzen Sie Ihren Code in die Frage, damit es richtig formatiert und lesbar ist. – Barmar

Antwort

0

Wenn Sie Ubuntu verwenden, könnten Sie so etwas wie:

$ less <file_name>.pdf >op.txt 

und zuerst den Text in der pdf in eine Textdatei umleiten und dann durch eine Linie mit der Python-Code-Leseleitung:

f=open("op.txt",'r') 

for line in f: 
    line=line.strip('\n') 
    print(line) 
f.close() 
+0

Während weniger automatisch einige Konverter (wie zB pdftotext von [Poppler] (https://poppler.freedesktop.org/)) aufrufen kann, ist es kein Konverter selbst. Dies ist sehr wahrscheinlich, nur das PDF zu kopieren. –

Verwandte Themen