SparkSession.createDataset()
erlaubt nur List, RDD, or Seq
- aber es unterstützt JavaPairRDD
nicht.Wie konvertiert man ein JavaPairRDD in Dataset?
Also, wenn ich ein JavaPairRDD<String, User>
, die ich von einem Dataset
erstellen wollen würde, eine tragfähige workround für die SparkSession.createDataset()
Einschränkung ein Wrapper UserMap
Klasse zu erstellen, die zwei Felder enthält: String
und User
.
Dann tun spark.createDataset(userMap, Encoders.bean(UserMap.class));
?
konvertieren, ich habe viele Transformationen bei 'ankommen JavaPairRdd pairRDD ...'. Also, wenn ich 'pairRDD.collect()' aufrufen, gehen alle 'Dataset'-Optimierungen verloren. –
Glide