Ich erstelle eine Anwendung, in der Streaming-Daten erhalten, die in Kafka und dann auf Funken geht. konsumieren Sie die Daten, wenden Sie eine Anmeldung an und speichern Sie dann verarbeitete Daten in der Struktur. Geschwindigkeit der Daten ist sehr schnell. Ich bekomme in 1min 50K-Platten. Es gibt ein Fenster von 1 Minute im Spark-Streaming, in dem es die Daten verarbeitet und die Daten im Stock speichert.Streaming-Datenspeicher in Bienenstock mit Funken
meine Frage ist für die Produktion prospektive Architektur ist in Ordnung? Wenn ja, wie kann ich die Streaming-Daten im Hive speichern? Was ich tue, ist, wodurch Datenrahmen von 1 min Fensterdaten und wird es in hive sparen, indem Sie
results.write.mode(org.apache.spark.sql.SaveMode.Append).insertInto("stocks")
Ich habe die Pipeline nicht erstellt. Ist es in Ordnung oder muss ich die Architektur ändern?
Danke
Danke für Ihre Antwort. Ich speichere 1 Minute Chargendaten im Stock. Wird die Struktur an dieselbe Datei angehängt oder wird eine andere Datei erstellt? – lucy
jeder Stapel endet in einer anderen Datei. Wenn eine Charge unter der Blockgröße liegt, kann sie über die Zeit hinweg unperformant werden. Oder Sie entwerfen einen anderen Stapeljob, der die einzelnen Dateien zusammenführt.Die Lösung könnte eine Partitionierung sein, was den Prozess viel einfacher macht – kf2