Wie extrahiert man einen PDF-Text mit pdfrw

Kann pdfrw den Text aus einem Dokument extrahieren?Wie extrahiert man einen PDF-Text mit pdfrw

Ich dachte, etwas entlang der Linien von

from pdfrw import PdfReader 
doc = PdfReader(pdf_path) 
page_texts = [] 
for page_nr in doc.numPages: 
    page_texts.append(doc.getPage(page_nr).parse_page()) # ..or something

Quelle

2017-02-07 Roman

Hier ist ein Beispiel, das nützlich sein kann:

for pg_num in range(number_of_pages): 

    pg_obj = pdfreader.getPage(pg_num) 

    print(pg_num) 

    if re.search(r'CSE', pg_obj.extractText()): 
     cse_count+= 1 
     pdfwriter.addPage(pg_obj)

Hier extractText() den Text der Seite extrahieren würde mit dem Stichwort CSE

Quelle

2017-03-17 14:36:53

Aber das ist nicht von pdfrw Paket richtig. Die extractText() - Klasse stammt aus dem pypdf2-Paket. Bitte korrigieren Sie mich, wenn ich falsch liege.

Quelle

2017-08-22 07:45:53

Wie extrahiert man einen PDF-Text mit pdfrw

Antwort

Verwandte Themen