Ich bin auf der Suche nach einer Klasse oder Methode, die eine lange Reihe von vielen 100 Wörter Wörter und Tokenizes, entfernt die Stoppwörter und Stiele für die Verwendung in einem IR-System.Tokenizer, Stoppwortentfernung, Stemming in Java
Zum Beispiel:
„Die große fette Katze, sagte:‚Ihr lustigste Kerl ich weiß‘zum Känguru ...“
die tokenizer die Interpunktion entfernen würde und Rückkehr ein ArrayList
von Wörtern
das Stoppwort-Entferner Wörter wie „der“, „zu“, etc
entfernen würdeder Stemmer würde jedes Wort ihre 'Wurzel' reduzieren, zum Beispiel 'am lustigsten' würde lustig werden
Vielen Dank im Voraus.
hey! @jitter gehen Lucene hilft nicht?muss spezifischer verlinken. – jsroyal