Gibt es eine Möglichkeit, die Anzahl der Datensätze zu erhalten, die bei der Verwendung von Spark geschrieben werden, um Datensätze zu speichern? Während ich weiß, dass es derzeit nicht in der Spezifikation ist, würde Ich mag Lage sein, etwas zu tun:Wie erhält man die Anzahl der geschriebenen Datensätze (mit der Sicherungsoperation von DataFrameWriter)?
val count = df.write.csv(path)
Alternativ eine Inline-Zählung in der Lage zu tun (vorzugsweise ohne nur einen Standard-Akku verwendet wird) von die Ergebnisse eines Schrittes wären (fast) so effektiv. d. h .:
dataset.countTo(count_var).filter({function}).countTo(filtered_count_var).collect()
Irgendwelche Ideen?
Haben Sie 'SparkListener' mit SQL getestet? Ich habe vorher ein paar grobe Tests durchgeführt und SQL-Schreibmetriken nicht erfasst. 'ExecutionListenerManager' ist der Weg zu gehen, und hat ein schönes Beispiel in den Tests. – zero323
Nein, ich habe keine Schnittstelle mit SQL verwendet. Etwas, das ich nur theoretisch kenne ... immer noch. –