2017-07-09 3 views
0

Ich strangle Kafka Funken Streaming mit dynamischen Schema. I "m von Kafka (KafkaUtils.createDirectStream) jede Nachricht/JSON Feld verschachtelt sein können raubend, jedes Feld in einigen Meldungen erscheinen kann und manchmal nichtKafka Funken Streaming dynamisches Schema

Das einzige, was ich gefunden zu tun ist. Spark 2.0 implicit encoder, deal with missing column when type is Option[Seq[String]] (scala)

Fallklasse MyTyp (column1: Option [Alle], column2: Option [Alle] ....) Dies wird decken, im nicht sicher, Felder, die angezeigt werden können, und verschachtelt Fileds

Jede Genehmigung/andere Ideen./allgemeine Hilfe wird geschätzt ...

Antwort

1

Af ter lange Integration und Trails, zwei Möglichkeiten, um nicht Schema Kafka verbrauchen zu lösen: 1) Werfen "Bearbeitung/Validierung" jede Nachricht mit "Lambda" -Funktion .nicht mein Favorit. 2) Spark: auf jedem Mikro-Batch erhalten flatten Schema und interagieren benötigten Spalten. Verwenden Sie Spark SQL, um den Rahmen nach benötigten Daten abzufragen. Das hat für mich funktioniert.

Verwandte Themen