3

Ich muss vielleicht mit Kafka arbeiten und ich bin absolut neu dazu. Ich verstehe, dass es einen Kafka-Produzenten gibt, der die Protokolle von Kafka-Themen bekommt.Spark Streaming von Kafka Consumer

Ich werde arbeiten, um von Kafka Themen über Verbraucher zu lesen. Muss ich zuerst die Consumer-API einrichten, dann kann ich mit dem SparkStreaming-Kontext (PySpark) streamen oder kann ich das KafkaUtils-Modul direkt verwenden, um von Kafka-Themen zu lesen?

Falls ich die Kafka Consumer-Anwendung einrichten muss, wie mache ich das? Bitte teilen Sie Links zu den richtigen Dokumenten.

Vielen Dank im Voraus!

Antwort

2

Spark internen Kafka-Stream zur Verfügung stellen, in dem Sie nicht benutzerdefinierte Verbraucher erstellen müssen, gibt es 2 Ansatz, mit Kafka 1 mit Empfänger zu verbinden 2. direkter Ansatz. Für weitere Details gehen Sie über diesen Link http://spark.apache.org/docs/latest/streaming-kafka-integration.html

+0

Es heißt an Orten, die es nicht Python unterstützt. Haben Sie versucht, Streams von Kafka zu lesen? Können Sie bitte ein Code-Snippet teilen, das selbst kleine Logs von dort verbraucht? –

+0

oh yeah es wird nicht in pyspark unterstützen, damit du deinen eigenen Stream erstellen kannst http://spark.apache.org/docs/latest/streaming-custom-receivers.html –

1

Es ist nicht notwendig, kafka Consumer-Anwendung einzurichten, Spark selbst erstellt einen Verbraucher mit 2 Ansätze. Der eine ist der Reciever Based Approach, der die KafkaUtils-Klasse verwendet, und der andere ist der direkte Ansatz, der die CreateDirectStream-Methode verwendet. Irgendwie, in jedem Fall der Fehler Ion-Spark-Streaming, gibt es keinen Verlust von Daten, es beginnt mit dem Offset der Daten, wo Sie verlassen.

Für weitere Informationen nutzen Sie diesen Link: http://spark.apache.org/docs/latest/streaming-kafka-integration.html