2017-11-13 4 views
0

Können wir ein Trennzeichen für HDFS Sink hinzufügen? Wann wird eine Datei geschrieben, wie können wir einen Datensatztrenner hinzufügen? Apache Flume + Hdfs Waschbecken

Im Folgenden sind die Konfiguration: -

tier1.sinks.hdfssink.type = hdfs 
tier1.sinks.hdfssink.channel = memory 
tier1.sinks.hdfssink.hdfs.path=tmp/kafka/%{topic}/%y-%m-%d 
tier1.sinks.hdfssink.hdfs.rollSize=268435456 
tier1.sinks.hdfssink.hdfs.rollCount=0 
tier1.sinks.hdfssink.hdfs.rollInterval = 0 
tier1.sinks.hdfssink.hdfs.useLocalTimeStamp=true 
tier1.sinks.hdfssink.hdfs.fileType=DataStream 
tier1.sinks.hdfssink.hdfs.inUseSuffix=.tmp 
tier1.sinks.hdfssink.hdfs.batchSize=10000 

Antwort

0

Ich würde zuneigen eine Flume EventSerializer mit deren Konfiguration ähnlich wäre als diese:

tier1.sinks.hdfssink.serializer = <your serialization class> 
tier1.sinks.hdfssink.serializer.delimiter = < your delimiter> 

Sie könnten die folgende Github-Website für Details verweisen und Code-Schnipsel.

https://github.com/relistan/flume-serializers

Hope this Hilfe!

+0

Vielen Dank für Ihre Antwort – user2945318