In Spark, gibt es einen schnellen Weg, um eine ungefähre Anzahl von Elementen in einem Dataset zu erhalten? Das heißt, schneller als Dataset.count()
tut.In Funke, wie die Anzahl der Elemente in einem Datenframe schnell zu schätzen
Vielleicht könnten wir diese Informationen aus der Anzahl der Partitionen des DataSet berechnen, könnten wir?
Vielen Dank, das ist genau das, was ich gesucht habe. – lovasoa
Ein wenig Präzision. Wenn Sie wie ich eine einzelne Zahl und kein Intervall benötigen, sollten Sie die Vertrauenswürdigkeit auf 0 setzen (und somit einen einzelnen Wert für niedrig und hoch erhalten). Wenn Sie einen hohen Wert verwenden (wie den Standardwert 0,95) und dann den Mittelwert von "niedrig" und "hoch" verwenden, ist das Ergebnis weniger präzise. – lovasoa