Ich bin neu in Python spark
, so dass diese Frage elementar sein könnte. Allerdings konnte ich hier und auf Google keine gute Antwort finden, also werde ich es trotzdem fragen.Hinzufügen eines Elements zu einer RDD in Abhängigkeit von einer Berechnung auf der gleichen RD
Ich möchte einige Elemente zu meiner RDD hinzufügen, abhängig von einigen Berechnungen, die ich auf dieser RDD. Sagen wir, mein RDD ist benannt Linien und enthält eine Zeichenfolge. Ich möchte zwei Zahlen hinzufügen, die Tab in der Datei getrennt ist. Dann füge diese Summe am Ende der Zeile rdd hinzu.
lines = sc.textFile("myFile.txt")
#Splitting the string where there are tabs
linesArr=lines.map(lambda line: line.split("\t"))
Jetzt möchte ich die beiden ersten Zungen in linesArr
hinzufügen zusammen und das Ergebnis am Ende der Zeilen hinzufügen.
Wie mache ich das?
Ich habe es geschafft, die beiden ersten Elemente zusammenzufassen: theSum = linesArr (lambda x: sumFunction (x [0] + x [1]). – Sindre