2017-05-08 5 views
0

Ich mache ein einfaches Projekt mit K-Means Clustering in Apache Funke und ich habe einige Vorverarbeitungsschritte wie Tokenization, Stop-Wörter-Entferner und HashingTF. Diese werden von funkeneigenen Tokenization(), StopWordRemover() und HasingTF() ausgeführt. Aber ich möchte stemming durchführen, bevor ich k-Means-Clustering anwende. Ich habe einige NLP-Bibliotheken in openNLP ausprobiert. Aber ich weiß nicht, wie man es in Spark DataFrame implementiert. Kann mir jemand helfen, wie es geht?Wie Stemming in Apache Funke durchführen?

+1

Haben Sie sich https://github.com/master/spark-stemming – Tchotchke

+0

angeschaut, versuche ich, Schneeball stemming in build.sbt Datei hinzuzufügen. Aber es zeigt Fehler Ungelöste Abhängigkeiten: Master # spark-stemming_2.11; 0.1.2 nicht gefunden – James

Antwort

2

Ich habe auch das gleiche versucht, aber habe nichts über das Hinzufügen von Abhängigkeit zu build.sbt gefunden. Zu der Zeit können wir herausfinden, wie man Abhängigkeit in build.sbt setzen, eine Arbeit herum ist, können Sie das Glas vom https://www.versioneye.com/java/com.github.master:spark-stemming_2.10/0.1.0 Standort herunterladen und dieses Glas in spark-submission --jars oder Funken-Shell --jars Befehl spezifizieren und seinen verwenden Klassen.

+0

können Sie mir bitte sagen, wie Sie das Glas intellij Idee angeben? – James

+0

Um das Glas in IntelliJ hinzuzufügen folgen Sie dem untenstehenden Schritt - Gehen Sie zu - Datei - Projektstruktur - Dann sollten Sie Bibliotheken auf der linken Seite sehen. Klick es an. - Klicken Sie auf das Pluszeichen (+) - Java - Position der JAR-Datei - Anwenden - Ok –

+0

Dies ist für IntelliJ Version 2016.3.2 –

2

Sie können spark stemming wie erwähnt von shashank aus diesem Projekt verwenden: https://github.com/master/spark-stemming Es unterstützt eine ganze Reihe von Sprachen. Sehen Sie die Liste an: https://github.com/master/spark-stemming/tree/master/src/main/java/org/tartarus/snowball/ext

Um das Projekt zu Ihrem build.sbt fügen Sie einen anderen Resolver hinzufügen müssen:

resolvers ++= Seq("spark-stemming" at "https://dl.bintray.com/spark-packages/maven/") 

und Importabhängigkeit:

"master" % "spark-stemming" % "0.1.1" 

nicht Version 0.1.2