aus dem Datensatz und RDD Dokumentation,Verständnis RDD und DataSet
DataSet:
Ein Datensatz ist eine stark typisierte Sammlung von domänenspezifischen Objekten , die parallel mit Hilfe der funktionellen oder relationalen umgewandelt werden kann Operationen. Jeder Datensatz hat auch eine nicht typisierte Ansicht ein Datenrahmen genannt, die ein Datensatz von Zeile ist
RDD:
RDD stellt eine unveränderliche, partitioniert Sammlung von Elementen, die können parallel
operiert werden
auch wird gesagt, der Unterschied zwischen ihnen:
Der Hauptunterschied ist, Datensatz ist Sammlung von domänenspezifischen Objekte, wo RDD Sammlung von Objekten ist. Der Domain-Objektteil der Definition bezeichnet den Schemateil des Datasets. So Datensatz-API ist immer stark typisiert und optimiert mit Schema wo RDD nicht ist.
Ich habe zwei Fragen hier;
was es
dataset is collection of domain specific objects while RDD is collection of any object
, I bedeutet einen Fall, KlassePerson
, dachte DataSet [Person] und RDD [Person] sowohl Sammlung von Domain sind bestimmte Objektedataset API is always strongly typed and optimized using schema where RDD is not
Warum es das Dataset API gesagt wird immer stark getippt während RDD nicht? Ich dachte, RDD [Person] ist auch stark typisierte
Wer markiert meine Frage geschlossen? Warum sollte es geschlossen sein? – Tom