nicht finden Ich verwende spark-core_2.10 jar auf meiner Java-Eclipse. Ich kann keine reduceBykey Methode darin finden! Alles, was ich als Vorschlag für reduce
bekommen, sind reduce
und treeReduce
. Irgendeine Idee, was hier falsch ist?kann die reduceByKey-Methode auf Spark
Antwort
In Java gibt es mehr Ärger mit PairRDD
(im Vergleich zu Scala, wo die Typen automatisch geschlossen werden, oder Python, die nicht Typen betrachten ist und erwartet Tupeln in Runtime). Als reduceByKey
muss der Schlüssel wissen, ist es defined on JavaPairRDD
Klasse.
Sie können durch Aufruf JavaRDD#mapToPair
JavaPairRDD
von normalenRDD
bekommen. Sie geben PairFunction
zurück, das ein Tupel zurückgibt, in dem das erste Element als Schlüssel in dem resultierenden JavaPairRDD
übernommen wird.
Post Sie Code und Sie RDD Details reduceByKey
ist ein Teil von PairRDD. Wenn Sie die PairRDD erstellt haben dann können Sie die reduceByKey
sehen.
reduceByKey
funktioniert nur auf RDD wo gibt es Schlüssel-Wert wie Daten, sie heißen pairRDD.
Hinzufügen zu den obigen Antworten, ist es egal, ob Sie an Scala von Java arbeiten, solange Ihre Daten korrekt sind.
Die ReduceByKey
wird auf Tuple-Daten in der folgenden Weise arbeiten.
val l1 = List((1,2), (1,3), (4,2))
val l1RDD = sc.parallelize(l1)
l1RDD.reduceByKey(_+_)
ouput ist: (1,5) (4,2)
- 1. Wie kann ich die Spark-Anwendung stoppen?
- 2. Spark: Kann WebUI nicht auf Localhost Schnittstelle
- 3. Spark - Checkpointing Auswirkungen auf die Leistung
- 4. Spark SQL vs HIVE auf Spark
- 5. Cogroup auf Spark DataFrames
- 6. Spark Serialisierung auf Objektreferenz
- 7. HIVE auf Spark-Ausgabe
- 8. Spark NoSuchMethodError auf SQLContext.sql (Spark 1.6.0 auf Cloudera 5.8.0)
- 9. Spark auf EMR konfigurieren
- 10. Spark-Installation auf Cygwin
- 11. GroupbyKey auf Spark-Datensatz
- 12. MC-Stan auf Spark?
- 13. Spark hört auf localhost
- 14. Kann Spark parallel geschachtelt werden?
- 15. Wie kann ich die Spark-Streaming-Anwendung nicht ordnungsgemäß ausführen?
- 16. Spark-Streaming - KafkaWordCount nicht auf einem Spark-Standalone-Cluster laufen kann
- 17. Spark kann nicht finden - spark-class-launcher-output-28018.txt
- 18. Wie kann man die queueStream API in apache spark verstehen?
- 19. Wie kann Spark auf eine neuere Version aktualisiert werden?
- 20. Verwenden von Spark JobServer Spark verwendet nicht die konfigurierte mysql-Verbindung auf hive-site.xml
- 21. Wie Spark auf Docker ausführen?
- 22. Warum sortBy() kann die Daten nicht gleichmäßig in Spark sortieren?
- 23. Abfrage kann nicht basierend auf TimeUUID in Spark SQL
- 24. In Spark-Streaming kann ich RDD auf Arbeiter
- 25. Spark 1.5.2: Worker kann Broadcast auf Festplatte nicht fortsetzen
- 26. Kann Spark nicht im eigenständigen Modus auf Mac
- 27. Spark App kann nicht auf Elasticsearch Cluster in Docker
- 28. Spark 2.1 kann nicht schreiben Vektorfeld auf CSV
- 29. Wie kann Spark RDD zwischen zwei Spark-Kontexten geteilt werden?
- 30. Spark Entscheidungsbaum mit Spark
Was macht Ihr RDD aussehen? Enthält es ein Tupel? Oder ein einzelner Wert, d.h. 'RDD [String]'? –
@YuvalItzchakov tatsächlich war es JavaRDD>. Egal, es funktioniert nur mit PairRDD –
insomniac