Wie extrahiere ich Zeile für Zeile aus Pdf in Python?

-1

Ich bekomme keine Lösung dafür haben wir Option zum Extrahieren ganzen Textes mit Pypdf, aber ich möchte den Text Zeile für Zeile extrahieren. Jede Hilfe wäre willkommen. DankWie extrahiere ich Zeile für Zeile aus Pdf in Python?

Quelle

2017-11-18 Santosh Vishwakarma

StackOverflow erwartet, dass Sie [versuchen, Ihr eigenes Problem zuerst zu lösen] (http://meta.stackoverflow.com/questions/261592), und wir [beantworten auch keine Hausaufgabenfragen] (https: // softwareengineering.meta.stackexchange.com/questions/6166). Bitte aktualisieren Sie Ihre Frage, um zu zeigen, was Sie bereits in einem [minimalen, vollständigen und überprüfbaren Beispiel] (http://stackoverflow.com/help/mcve) versucht haben. Weitere Informationen finden Sie unter [Fragen stellen] (http://stackoverflow.com/help/how-to-ask) und nehmen Sie die [Tour der Website] (http://stackoverflow.com/tour)) :) – Barmar

Ich versuche das, aber es gibt den ganzen Text. Ich möchte Zeile für Zeile Text extrahieren. import PyPDF2 pdfFileObj = open (R'C: \ Benutzer \ Desktop \ new.pdf‘, 'rb') PdfReader = PyPDF2.PdfFileReader (pdfFileObj) pageObj = pdfReader.getPage (0) text = Str (pageObj .extractText()) –

Setzen Sie Ihren Code in die Frage, damit es richtig formatiert und lesbar ist. – Barmar

Wenn Sie Ubuntu verwenden, könnten Sie so etwas wie:

$ less <file_name>.pdf >op.txt

und zuerst den Text in der pdf in eine Textdatei umleiten und dann durch eine Linie mit der Python-Code-Leseleitung:

f=open("op.txt",'r') 

for line in f: 
    line=line.strip('\n') 
    print(line) 
f.close()

Quelle

2017-11-18 08:25:26

Während weniger automatisch einige Konverter (wie zB pdftotext von [Poppler] (https://poppler.freedesktop.org/)) aufrufen kann, ist es kein Konverter selbst. Dies ist sehr wahrscheinlich, nur das PDF zu kopieren. –

Wie extrahiere ich Zeile für Zeile aus Pdf in Python?

Antwort

Verwandte Themen