Kann pdfrw den Text aus einem Dokument extrahieren?Wie extrahiert man einen PDF-Text mit pdfrw
Ich dachte, etwas entlang der Linien von
from pdfrw import PdfReader
doc = PdfReader(pdf_path)
page_texts = []
for page_nr in doc.numPages:
page_texts.append(doc.getPage(page_nr).parse_page()) # ..or something