Ich teste gerade die Gewässer hier ... Der typische Ansatz zur Klassifizierung von Dokumenten ist mit bag of words, aber das bedeutet, dass das Dokument elektronisch, nativ oder oktarisch ist. Für Standarddokumente denke ich an Regierungsformulare, ich frage mich, ob wir das Bild ein wenig manipulieren könnten, um in eine standardisierte Form zu kommen und eine Alpha-Ebene zu erstellen, wo die Wörter sind. Vielleicht nicht die eigentlichen Worte, aber ihre Form. Dann vergleichen Sie diese Alpha-Schicht mit etwas maschinellem Lernen, um zu sehen, ob wir eine Übereinstimmung haben. Ich habe fast das Gefühl, dass jedes Dokument einen Fingerabdruck hat ... visuell.Bildbasierte Dokumentklassifikation
Die Idee wäre, 100h Versionen eines Dokuments in einen Ordner zu dumpen, einige Verarbei- tung zu vereinheitlichen und dann einen Algorithmus auszuführen, um den Fingerabdruck des Dokuments zu finden.
Wieder fange ich gerade eine Konversation an. Hält dieser Gedanke Wasser? Wird es schon gemacht? Ich freue mich auf Ihre Antworten!
Es scheint, dass sich Ihre Frage auf das maschinelle Lernen konzentriert und nicht direkt mit der Programmierung zusammenhängt, was sie hier nicht zum Thema macht. Sie können feststellen, dass [Cross Validated] (https://stats.stackexchange.com) oder [Data Science SE] (https://datascience.stackexchange.com) besser zu diesen Fragen passt. –