2016-12-07 1 views
2

Ich würde gerne mehrere Aggregationen in Spark Structured Streaming machen.Mehrere Aggregationen in Spark Structured Streaming

Etwas wie folgt aus:

  • einen Strom von Eingabedateien lesen (aus einem Ordner)
  • Führen Aggregation 1 (mit einigen Transformationen)
  • Perform Aggregation 2 (und Transformationen)

Wenn ich dies in Structured Streaming ausführe, gibt es mir einen Fehler "Mehrere Streaming-Aggregationen werden nicht unterstützt Streaming von Datenrahmen/Datasets".

Gibt es eine Möglichkeit, solche Mehrfachaggregationen in Structured Streaming durchzuführen?

+0

Haben Sie versucht, die niedrigere 'DStream'-Abstraktion zu verwenden? –

+0

Ich hatte gehofft, strukturiertes Streaming (Datasets/Dataframes) zu verwenden. Kannst du mich auf ein Beispiel hinweisen, wo etwas Ähnliches mit DStream gemacht wurde? – Kaptrain

Antwort

0

Dies wird in Spark 2.0 nicht unterstützt, da die Structured Streaming API noch experimentell ist. Eine Liste aller aktuellen Einschränkungen finden Sie unter here.

+0

Ich überprüfe das. Ich denke, es wird funktionieren. Vielen Dank! – Kaptrain

+0

Sieht so aus, als ob dies der richtige Weg ist, da die strukturierte Streaming-API nicht unterstützt wird. – Kaptrain

4

Dies wird nicht unterstützt, aber es gibt auch andere Möglichkeiten. Zum Beispiel die Durchführung einer einzelnen Aggregation und die Speicherung in kafka. Lesen Sie es von Kafka und wenden Sie die Aggregation erneut an. Das hat für mich funktioniert.

Verwandte Themen