Dies ist der Code, den ich irgendwo hier gefunden habe. Ich habe keine Ahnung, wie man es benutzt. Kann mir jemand dies erklären und mir helfen, ein Beispiel pdf zu konvertieren?Ich möchte mit PDFminer Text aus einer PDF in eine Textdatei extrahieren. Ich habe den Code gefunden, aber ich habe keine Ahnung, wie man ihn benutzt.
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
installieren Sie haben es versucht mit? – glls
Ja, ich habe. Es tut nichts. – iMiner
und ich nehme an, Sie haben den Code von hier extrahiert? https://www.binpress.com/tutorial/manipulating-pdfs-with-python/167 – glls