2017-05-31 9 views
0

Ich bin neu in kafka, haben wir folgende Anforderung:Kafka HDFS synchron mit Datentransformation

1) Führen Sie eine tägliche Synchronisierung von Daten von Kafka zu HDFS, von bestimmten Schlüsseln in der Nutzlast gespeichert JSON aufgeteilt in Kafka-Cluster.
2) JSON Nutzlast erforderlich in zwei verschiedene Dateien

wenn diese HDFS kafka-Anschluss erreicht werden durch Wondering gebrochen werden kann? Ich habe ein paar Unterlagen gesehen, ich denke, ich kann leicht mit # 1 arbeiten, aber ich bin nicht in der Lage zu verstehen, ob es etwas für meine zweite Anforderung gibt. Jeder Vorschlag, wie dies zu erreichen ist, wird sehr geschätzt. Vielen Dank im Voraus.

+0

Werfen Sie einen Blick auf Nachrichtentransformationen und sehen Sie, ob sie für Ihren Anwendungsfall https://kafka.apache.org/documentation/#connect_transforms. Im Grunde stelle ich mir zwei verschiedene hdfs-Connector-Instanzen vor, die aus demselben Thema lesen und jemanden wie ExtractField verwenden, um aus der Payload für jede Instanz das gewünschte zu extrahieren und dann an zwei verschiedene hdfs-Standorte zu schreiben. – dawsaw

+0

Wow, warum habe ich nie in diese Richtung gedacht ... Nicht sicher, ob das funktionieren wird und meine Anforderungen ansprechen, aber wenigstens gab mir das einen Weg, es zu versuchen !!! Vielen Dank – Amit

Antwort

0

Werfen Sie einen Blick auf Nachrichtentransformationen und sehen Sie, ob sie für Ihren Anwendungsfall https://kafka.apache.org/documentation/#connect_transforms. Im Grunde stelle ich mir zwei verschiedene hdfs-Connector-Instanzen vor, die aus demselben Thema lesen und jemanden wie ExtractField verwenden, um aus der Payload für jede Instanz das gewünschte zu extrahieren und dann an zwei verschiedene hdfs-Standorte zu schreiben.