Ich mache ein einfaches Projekt mit K-Means Clustering in Apache Funke und ich habe einige Vorverarbeitungsschritte wie Tokenization, Stop-Wörter-Entferner und HashingTF. Diese werden von funkeneigenen Tokenization(), StopWordRemover() und HasingTF() ausgeführt. Aber ich möchte stemming durchführen, bevor ich k-Means-Clustering anwende. Ich habe einige NLP-Bibliotheken in openNLP ausprobiert. Aber ich weiß nicht, wie man es in Spark DataFrame implementiert. Kann mir jemand helfen, wie es geht?Wie Stemming in Apache Funke durchführen?
Antwort
Ich habe auch das gleiche versucht, aber habe nichts über das Hinzufügen von Abhängigkeit zu build.sbt gefunden. Zu der Zeit können wir herausfinden, wie man Abhängigkeit in build.sbt setzen, eine Arbeit herum ist, können Sie das Glas vom https://www.versioneye.com/java/com.github.master:spark-stemming_2.10/0.1.0 Standort herunterladen und dieses Glas in spark-submission --jars oder Funken-Shell --jars Befehl spezifizieren und seinen verwenden Klassen.
können Sie mir bitte sagen, wie Sie das Glas intellij Idee angeben? – James
Um das Glas in IntelliJ hinzuzufügen folgen Sie dem untenstehenden Schritt - Gehen Sie zu - Datei - Projektstruktur - Dann sollten Sie Bibliotheken auf der linken Seite sehen. Klick es an. - Klicken Sie auf das Pluszeichen (+) - Java - Position der JAR-Datei - Anwenden - Ok –
Dies ist für IntelliJ Version 2016.3.2 –
Sie können spark stemming wie erwähnt von shashank aus diesem Projekt verwenden: https://github.com/master/spark-stemming Es unterstützt eine ganze Reihe von Sprachen. Sehen Sie die Liste an: https://github.com/master/spark-stemming/tree/master/src/main/java/org/tartarus/snowball/ext
Um das Projekt zu Ihrem build.sbt fügen Sie einen anderen Resolver hinzufügen müssen:
resolvers ++= Seq("spark-stemming" at "https://dl.bintray.com/spark-packages/maven/")
und Importabhängigkeit:
"master" % "spark-stemming" % "0.1.1"
nicht Version 0.1.2
- 1. Sortbykey in Apache Funke
- 2. Apache Funke strukturiert Streaming
- 3. Apache Funke Datenrahmen
- 4. Apache Funke: java.lang.NoSuchMethodError .rddToPairRDDFunctions
- 5. Raise Alert durch Apache Funke
- 6. Apache Funke Verständnis dichten Vektor
- 7. Apache Funke groupBy Pivot-Funktion
- 8. Apache Funke - Cassandra Guava Unverträglichkeit
- 9. Hat Apache Funke Geo-Bewusstsein?
- 10. Disjunkte Sätze auf Apache Funke
- 11. Explodieren Array in Apache Funke Datenrahmen
- 12. Wie Stemming während Mallet für Themenmodellierung
- 13. Apache-Funke beim Zwischenspeichern des Speichers
- 14. ElasticSearch Stemming
- 15. Kann Apache Funke auf DCOS nicht installieren
- 16. Kann Apache Funke Standalone-Cluster nicht starten
- 17. Apache Phoenix 4.5.1 mit Funke 1.3.1 Classnotfundexception
- 18. Apache Funke, "konnte kein lokales Verzeichnis erstellen"
- 19. Word stemming in R
- 20. RDD Aggregat in Funke
- 21. Ausgabedatei wird auf Slave-Maschine in Apache Funke generiert
- 22. Erstellen einer aggregierten Metriken aus JSON-Logs in Apache Funke
- 23. Gruppe kartesische Koordinaten zu Zellen in Apache Funke
- 24. Tokenizer, Stoppwortentfernung, Stemming in Java
- 25. Stemming unstrukturierten Text in NLTK
- 26. Iterate über RDD in Apache Funke ohne zu sammeln
- 27. Apache Funke: In SparkSql sind SQLs anfällig für SQL-Injection
- 28. Elasticsearch passt zu stemming
- 29. Marklogic Plural/Singular Stemming
- 30. Stemming ein-/ausschalten
Haben Sie sich https://github.com/master/spark-stemming – Tchotchke
angeschaut, versuche ich, Schneeball stemming in build.sbt Datei hinzuzufügen. Aber es zeigt Fehler Ungelöste Abhängigkeiten: Master # spark-stemming_2.11; 0.1.2 nicht gefunden – James