Ich muß Text von Rechnungen und Rechnungen PDF-Dateien LayoutRegelbasierte PDF Textextraktion für bewandert und Rechnungen
Die Dateien extrahieren kann komplex, obwohl seine meist mit Tischen gefüllt.
Ich habe schon ein paar Dutzend Artikel über das PDF-Format gelesen, wie einfach es für unser Gehirn ist, es zu verstehen und wie schwer es für eine Maschine ist, ihre Struktur zu verstehen.
Auch heruntergeladen ein paar Tools wie Python die pdfminer und einige Java-Tools, einige sogar haben rule-basierte Layout-Extraktion, wie LA-PDBtext das sind alle großen Bibliotheken, so dass Sie den letzten Schritt.
Adobe hat auch einen Online-Dienst namens ExportPDF aber es kann nicht
Unterm Strich angepasst werden, verstehe ich, dass etwas, um Text aus strukturierten PDF-Dateien zu extrahieren und wandelt es in XML zum Beispiel, sollte es Niveau der manuellen Arbeit.
Ich fand auch From Data Extractor, ein nicht kostenloses Tool mit der Fähigkeit, Extraktionsregeln zu setzen, die behauptet, den Job zu tun, obwohl es schwer ist, ein richtiges Handbuch zu finden, und es läuft nur auf Windows.
Ich dachte, ich könnte sogar versuchen, diese Dateien in Bilder zu konvertieren und versuchen tesseract-ocr, aber beschlossen, um Rat zu fragen, bevor ich mehr Zeit darauf verbringen.
Ich werde sehr dankbar sein, wenn jemand mit solcher Erfahrung mir einen Hinweis geben wird.
Wenn diese PDFs nicht konform mit PDF/A-1a sind, haben Sie eine Menge Arbeit - Sie müssen OCR machen. PDF ist nicht das richtige Format dafür; versuchen Sie, die Rechnungen und Rechnungen als korrekt strukturiertes XML oder als EDIFACT zu erhalten. –
Hey ich weiß, das ist ein alter Beitrag, aber versuchen Sie Tabula https://github.com/jazzido/tabula-extractor – blaze