Ich habe über Tausende von txt Dokumenten in 8 verschiedenen Dateiordnern gespeichert, die mit Thema Kategorien markiert sind (eigentlich sind sie Klasse 1,2,3 ...). Und ich habe noch 80 txt-Dokumente, die noch keine Kategorien haben. Ich versuche den besten Weg zu finden, sie zu kategorisieren.wie man .txt Dokumente in andere .txt Kategorien durch überwachtes Lernen klassifiziert
Ich habe bereits die Textsegmentierung abgeschlossen und die englischen Buchstaben gelöscht (weil es sich um chinesische Texte handelt) .Was soll ich als nächstes tun?
Ich kann die Wörter mit den höchsten TF-IDF-Werten bekommen, weiß aber nicht weiter.Es scheint, als müsste ich diesen Text in Vektoren umwandeln und einen Klassifikator trainieren, aber ich weiß nicht wie.
Werfen Sie einen Blick auf http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html – DJanssens