Wie in der Frage angegeben, versuche ich einen Hash für jede Zeile von RDD zu generieren. Für meinen Zweck kann ich zipWithUniqueId()
Methode nicht verwenden, brauche ich einen Hash aller Spalten für jede Zeile der RDD.Wie generiert man einen Hash für jede Zeile von RDD? (PYSPARK)
for row in DataFrame.collect():
return hashlib.sha1(str(row))
Ich weiß, dass ist der schlechteste Weg, Iterating in RDD, aber ich bin Anfänger mit Pyspark. Die Probleme sind jedoch: Ich bekomme für jede Zeile den gleichen Hash. Ich habe versucht, starke kollisionsresistente Hash-Funktion zu verwenden, aber es ist zu langsam. Gibt es einen Weg, das Problem zu lösen? Vielen Dank im Voraus :)
Vielen Dank, schließlich funktioniert es in einer pyspark Art und Weise. –