5

Ich habe einige schwarze & weiße Dokumente (Bild-Scan) und wollen sie nach ihrem Layout Cluster. Um die Sache konkreter zu machen, sagen wir, dass ich die folgenden drei Bilder habe und die ersten beiden würden eher in den gleichen Cluster fallen als in das dritte Bild, weil die ersten beiden ein relativ ähnliches Layout haben.Schwarz-Weiß-Bild Dokument Clustering

Meine Frage ist, was wäre der beste Ansatz zum Clustering der Dokumente? Im Moment habe ich ein paar erste Ansätze:

  • get Bild Hash und vergleichen Sie die Hash-
  • PCA und einige Clustering-Techniken (K-Mittel) die untere Dimension Darstellung
  • Extrakt Zeichenfolge zu vergleichen mit OCR, Textmerkmale extrahieren und sie
  • Extrakt String mit OCR vergleichen und einige Keyword-Suche

Gäbe es andere bessere Ansätze sein? Auch hier zählt nur das Layout.

1st image

2nd image

3rd image

+1

Oft beschreiben in rein englischen Begriffen, was Sie als das entscheidende Unterscheidungsmerkmal wahrnehmen, ist ein guter Start ... –

+1

OCR wird nicht helfen, wenn Layout-Analyse. Und Sie sollten das Layout-Feature so definieren, dass es Cluster ist, wie es in der Vorschau heißt. – Silencer

Antwort

1

Versuchen Sie nicht, Rohdaten Cluster.

Clustering ist unbeaufsichtigt, es kann nicht lernen, welche Eigenschaften wichtig sind und was nicht. Für einen Cluster-Algorithmus ist alles wichtig.

Definieren Sie stattdessen zuerst die für das Layout relevanten Funktionen. So wie lange Kanten.