2017-03-02 1 views
1

Ich möchte Apache Kafka Connect verwenden, um Dateien auf einem Linux-Server zu verarbeiten.So verwenden Sie Kafka Connect mit vorhandenen und neuen Dateien (Watch-Ordner)

Anwendungsfall: Ich habe einen Ordner mit 2 Millionen XML-Dateien in Unterordnern. Ich möchte sie alle nach Apache Kafka in Reihenfolge ihres Zeitstempels schieben. Dann möchte ich den Ordner und die Unterordner nach neuen Dateien durchsuchen und sie auch in der Reihenfolge der Ankunft an Kafka senden.

Ist das möglich? Oder muss ich diesen Prozess aufteilen? Sind Plugins verfügbar?

Antwort

4

Schauen Sie sich die spooldir Stecker Plugin https://github.com/jcustenborder/kafka-connect-spooldir

Wenn das nicht praktikabel Check-out connectors.confluent.io andere Plugins aus der Community zu sehen.

Bestellgarantien basieren auf Ihrer Partitionierungsstrategie. Wenn Sie die gesamte Bestellung benötigen, verwenden Sie eine Partition.

Verwandte Themen