Ich möchte in der Lage sein PDF-Dateien in CSV-Dateien zu konvertieren und haben einige nützliche Skripte gefunden, aber, zu Python ist neu, habe ich eine Frage:Python PDFMIner - PDF to CSV
Wo Sie den Dateipfad der nicht angeben PDF und die CSV, auf die Sie drucken möchten?
Ich verwende Python 2.7.11 und PDFMiner 20140328.
import sys
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO
def pdfparser(data):
fp = file(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
data = retstr.getvalue()
print data
if __name__ == '__main__':
pdfparser(sys.argv[1])
1. Eingabe auf der Befehlszeile ist: 'pdfparser (sys.argv [1])'. 2. Dieser Code wird nicht in eine Datei gedruckt, er druckt * nur *: 'Druckdaten'. Ich denke, Sie wollen etwas wie 'python yourScriptName.py input.pdf> output.csv'. Aber zuerst müssen Sie einige Einrückungsfehler korrigieren oder sicherstellen, dass Sie die Quelle korrekt kopiert haben. – usr2564301