Kafka direkte Verbraucher begann, Lesevorgänge auf 450 Ereignisse (5 * 90 Partitionen) pro Batch (5 Sekunden) zu begrenzen, lief es gut für 1 oder 2 Tage davor (etwa 5000 bis 40000 Ereignisse pro Batch)Spark Streaming Kafka direkte Verbraucherverbrauch Geschwindigkeit fallen
Ich benutze Funke Standalone-Cluster (Spark und Spark-Streaming-kafka Version 1.6.1) in AWS läuft und S3-Bucket für Checkpoint-Verzeichnis StreamingContext.getOrCreate(config.sparkConfig.checkpointDir, createStreamingContext)
verwenden, gibt es keine Verzögerungen zu planen und genügend Festplatte Platz auf jedem Arbeiterknoten.
Hat keine Kafka Client initiert Parameter ändern, ziemlich sicher, dass Kafkas Struktur hat sich nicht geändert:
val kafkaParams = Map("metadata.broker.list" -> kafkaConfig.broker)
val topics = Set(kafkaConfig.topic)
val stream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
ssc, kafkaParams, topics)
Auch kann nicht verstehen, warum, wenn eine direkte Verbraucher Beschreibung sagt The consumed offsets are by the stream itself
ich noch Kontrollpunkt Verzeichnis verwenden müssen beim Erstellen des Streamingkontextes?
Ist 'spark.streaming.backpressure.enabled' auf' true' gesetzt? –
ja, ich werde versuchen, es zu deaktivieren –
sieht aus wie es geholfen –