2012-06-07 11 views
5

Ich hatte eine Liste von Büchern, in denen jedes Buch zu einer Kategorie gehört.Datensätze in Java kategorisieren

  • Fliegen ein Flugzeug - Aviation
  • Bild Malerei - Kunst
  • 1001 Rezepte - Kochen

Ich habe einen großen genug Probe Satz von Daten. Ich muss meine neueren Bücher mit einem Algorithmus kategorisieren. Ich weiß, dass es nie 100% genau ist, aber eine gute Schätzung ist gut für mich.

Was sollte ich verwenden, um so etwas zu tun? Soll ich mit Classifier4J gehen und es ist Vector Classifier?

Gibt es andere Tools, die ich wie Weka betrachten sollte? Es wäre toll, wenn mich jemand auf Artikel/Beispiele aufmerksam machen könnte, um mich zu starten.

Dank

+0

Sie einen Blick auf einem schnellen Bergmann nehmen. – toniedzwiedz

+1

Schauen Sie sich folgendes an: [java-text-classification-problem] (http://stackoverflow.com/questions/2821575/java-text-classification-problem), ihr macht fast genau dasselbe. – 16dots

Antwort

1

Es gibt einen Kurs über https://www.coursera.org/course/ml Machine Learning genannt. Wenn Sie Ihr Problem als Klassifizierung betrachten, sollten Sie trainieren N One-vs-All Klassifikatoren wo N ist die Anzahl Ihrer Klassen (= Kategorien). Um einen Klassifikator zu trainieren, verwenden Sie einen der Algorithmen, die in der Natural Language Processing-Klasse https://www.coursera.org/course/nlp beschrieben werden. Normalerweise ist dies eine Ähnlichkeit mit bestehenden Klassen http://nlp.stanford.edu/IR-book/html/htmledition/text-classification-and-naive-bayes-1.html. All dies könnte in Apache Mahout mit https://cwiki.apache.org/confluence/display/MAHOUT/Bayesian getan werden.

Verwandte Themen