-1

Ich habe über Tausende von txt Dokumenten in 8 verschiedenen Dateiordnern gespeichert, die mit Thema Kategorien markiert sind (eigentlich sind sie Klasse 1,2,3 ...). Und ich habe noch 80 txt-Dokumente, die noch keine Kategorien haben. Ich versuche den besten Weg zu finden, sie zu kategorisieren.wie man .txt Dokumente in andere .txt Kategorien durch überwachtes Lernen klassifiziert

Ich habe bereits die Textsegmentierung abgeschlossen und die englischen Buchstaben gelöscht (weil es sich um chinesische Texte handelt) .Was soll ich als nächstes tun?

Ich kann die Wörter mit den höchsten TF-IDF-Werten bekommen, weiß aber nicht weiter.Es scheint, als müsste ich diesen Text in Vektoren umwandeln und einen Klassifikator trainieren, aber ich weiß nicht wie.

+1

Werfen Sie einen Blick auf http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html – DJanssens

Antwort

0

Anstatt Ihre eigenen Tasche Wörter Modelle zu implementieren, könnten Sie z.B. doc2vec von Gensim. Es bietet eine hervorragende Leistung, die mit Ihrer eigenen Implementierung nur schwer zu erreichen ist. Sie können zwischen hierarchischer Softmax oder negativer Abtastung wählen.

Verwandte Themen