2016-07-21 8 views
0

Zum Beispiel habe ich einen Text, der aus Zeilen besteht. Jede Zeile hat ihre eigene Länge, Einrückung und andere Merkmale. Mein Ziel ist es, Gedichte in diesem Text zu finden, aber alle Clustering-Methoden, die ich kenne, ordnen Zeilen um und erstellen Cluster unabhängig von der Position im Text. Ich habe versucht, die Position als eine der Funktionen zu verwenden, aber ich mag das Ergebnis nicht. Es wird cool sein, wenn du mir etwas wie DBSCAN anzeigst. Kannst du mir helfen?Gibt es Clustering-Methode, die Neuordnung verhindert?

Antwort

-1

Ich denke, diese Frage läuft darauf hinaus, welche Funktionen zu verwenden. Sie haben eine Aufgabe zur Verarbeitung natürlicher Sprache, so würde ich vorschlagen Word2Vec, z.B.

Dieser Ansatz ist in der Lage Wörter einzubetten, Sätze und sogar Dokumente in einem Vektorraum.

Siehe auch: Document classification with distributions of word vectors

1

Angeblich soll Clustering für Ihr Problem nicht das richtige Werkzeug ist. Es könnte ein Segmentierung Algorithmus geben, der zu Ihrem Problem adoptiert werden kann.

Aber besser betrachten Sie es als ein Optimierungsproblem, und lösen Sie es als solches, anstatt zu hoffen, dass einige Clustering-Algorithmus passiert zu arbeiten.

Verwandte Themen