2017-02-07 6 views
0

Kann pdfrw den Text aus einem Dokument extrahieren?Wie extrahiert man einen PDF-Text mit pdfrw

Ich dachte, etwas entlang der Linien von

from pdfrw import PdfReader 
doc = PdfReader(pdf_path) 
page_texts = [] 
for page_nr in doc.numPages: 
    page_texts.append(doc.getPage(page_nr).parse_page()) # ..or something 

Antwort

0

Hier ist ein Beispiel, das nützlich sein kann:

for pg_num in range(number_of_pages): 

    pg_obj = pdfreader.getPage(pg_num) 

    print(pg_num) 

    if re.search(r'CSE', pg_obj.extractText()): 
     cse_count+= 1 
     pdfwriter.addPage(pg_obj) 

Hier extractText() den Text der Seite extrahieren würde mit dem Stichwort CSE

0

Aber das ist nicht von pdfrw Paket richtig. Die extractText() - Klasse stammt aus dem pypdf2-Paket. Bitte korrigieren Sie mich, wenn ich falsch liege.

Verwandte Themen