2017-09-07 3 views
0

SideInput ist eine Art Broadcasting in Spark, das bedeutet, dass Sie Daten auf einem lokalen Worker-Computer zwischenspeichern, um die Netzwerk-/Shuffle-Overhead zu reduzieren. Es ist logisch zu denken, wie viel Speicher in einem Heap gespeichert werden kann. In Dataflow documentation heißt es Limit ist 20K shard. Was bedeutet das? Wie groß ist eine Scherbe?Cloud Datenfluss/Beam: Side Input Limit

Antwort

1

Um Ihre ursprüngliche Frage zu beantworten, können Sie die von einem Dataflow-Worker über die Option --workerCacheSizeMb in der Befehlszeile vorgenommene In-Memory-Zwischenspeicherung konfigurieren, die setWorkerCacheSizeMb ist, wenn Sie eine Pipeline programmgesteuert aufrufen. Der Standardwert ist 100 MB.

+0

Ist es möglich, eine externe Festplatte mithilfe der Instanzvorlage in Computing mit Dataflow zuzuweisen? Auch eine von Ihnen erwähnte Option scheint nirgendwo dokumentiert zu sein. – Mayumi

Verwandte Themen