Ich benutze Apache Spark 2, um etwas Text zu tokenisieren.Erhalten Sie eindeutige Wörter von Spark Dataset in Java
Dataset<Row> regexTokenized = regexTokenizer.transform(data);
Es gibt Array of String zurück.
Dataset<Row> words = regexTokenized.select("words");
Beispieldaten sieht so aus.
+--------------------+
| words|
+--------------------+
|[very, caring, st...|
|[the, grand, cafe...|
|[i, booked, a, no...|
|[wow, the, places...|
|[if, you, are, ju...|
Jetzt möchte ich alle eindeutigen Wörter bekommen. Ich habe ein paar Filter ausprobiert, flatMap, Kartenfunktionen und reduziere. Ich konnte es nicht herausfinden, weil ich neu im Spark bin.