Ich möchte die Tabellendaten aus Bildern oder gescannten Dokumenten extrahieren und die Header-Felder auf ihre jeweiligen Werte meist in einem Versicherungsdokument zuordnen. Ich habe versucht, indem Sie sie Zeile für Zeile extrahieren Linie und dann Mapping sie mit ihrer Position auf der Seite. Ich habe die Tabellengrenze definiert, indem ich einen Tabellenanfang und -ende-Pivot definiert habe, aber es gibt mir kein richtiges Ergebnis, da die Header manchmal mehrere Zeilen haben (ich hatte dies in PHP implementiert). Ich möchte auch wissen, ob ich mit maschinellem Lernen dasselbe erreichen kann.Tabellendaten Extraktion aus Bild oder gescannten Dokumenten (nicht pdf)
für PDF-Dokumente habe ich verwendet tabula-java die für mich ziemlich gut funktioniert. Gibt es eine ähnliche Art von Implementierung für Bilder?
Die Dokumente ähnlicher Art wie in der Verbindung würden oben, aber von verschiedenen Dienstanbietern so eine generische Methode, Daten zu extrahieren sehr nützlich wäre.
Im Bild oben I wie Fabrikat = YAMAHA, MODEL = FZ-S, CC = 153 usw.
Dank Karte Wert wollen.
Wird es immer dieselbe PDF-Vorlage geben? – Elia
Nein. Es kann je nach Dienstanbieter unterschiedlich sein. –