2017-06-19 2 views
0

Ich habe ein Kanal-Agent läuft in CDH 5.8.3. Es erstellt mehrere .tmp-Dateien beim Schreiben in hdfs, wenn mehr als 3 gültige Dateien gesendet werden. Es gibt einen Interceptor, der gültige xmls an das entsprechende Thema weiterleitet, bevor die hdfs sinken. Dieser Agent verwendet flafka. Interceptor und Kafka funktionieren korrekt.Gerinne Agent produziert mehrere. Tmp-Dateien, wenn Daten in Folge gesendet werden

agent.sinks.hdfs_valid.channel=valid_channel 
agent.sinks.hdfs_valid.type=hdfs 
agent.sinks.hdfs_valid.writeFormat=Text 
agent.sinks.hdfs_valid.hdfs.fileType=DataStream 
agent.sinks.hdfs_valid.hdfs.filePrefix=event 
agent.sinks.hdfs_valid.hdfs.fileSuffix=.xml 
agent.sinks.hdfs_valid.hdfs.path=locationoffile/%{time} 
agent.sinks.hdfs_valid.hdfs.idleTimeout=900 
agent.sinks.hdfs_valid.hdfs.rollInterval=3600 
[email protected]mple.com 
agent.sinks.hdfs_valid.hdfs.kerberosKeytab=locationofkeytab 
agent.sinks.hdfs_valid.hdfs.rollSize=0 
agent.sinks.hdfs_valid.hdfs.rollCount=0 
agent.sinks.hdfs_valid.hdfs.callTimeout=100000 

Antwort

0

Okay, so interessant genug. Unsere Kafka-Partitionen wurden auf 20 eingestellt. Wenn Rinne davon konsumiert. Die ersten 10 Partitionen verbrauchen von einer IP-Adresse und öffnen ein .tmp. Die zweiten 10 Partitionen verbrauchen von einer anderen IP und öffnen eine zweite .tmp. Dies scheint eine interne Funktion der Gerinne zu sein. Alle Daten sind korrekt angekommen, obwohl zwei .tmp geöffnet waren.

Verwandte Themen