ich kopieren haben folgende RDD [String]:Wie eine Reihe von Elementen in RDD in einen kleineren RDD
val rdd = sc.makeRDD(Seq("paul", "jim,", "joe", "mary", "sean", "peter", "lucy"))
Was Ich mag wäre in der Lage sein, eine smallerRDD durch zu tun ist, zu erzeugen in der Lage, kopiere einen Bereich von Zeilen von der obigen Haupt-rdd in eine kleinere rdd.
Anwendungsfall: Beim Durchlaufen von RDDs in Zündfunken können ungewöhnliche Situationen auftreten, häufiger können bestimmte Leitungen/Datensätze in RDDs Probleme verursachen.
In der Lage zu sein, programmatisch einen zum anderen zu kopieren, nutze in der Tat eine nützliche Funktion, da ich hierfür keine in Dosen gespeicherte rdd-Methode finden konnte. siehe meine Lösung unten.
Wie würden Sie wählen, welcher Teil der RDD sollte auf die kleinere RDD kopiert werden? – Yaron
Bitte erweitern Sie Ihren Anwendungsfall. Ja, bestimmte Zeilen können Probleme verursachen, aber würden Sie diese wirklich nach Index oder Inhalt identifizieren? –