2017-01-23 1 views
0

Für die Art der Einrichtung, wo TBs von Datensätzen auf die KAFKA-Themen geschrieben werden sollten, was ist der beste Weg, KAFKA connect - HDFS-Connector zu verwenden?Best Practice bei der Verwendung von kafka connect

Meine Kafka-Instanz läuft auf dem AWS-Hostnamen a.b.c.d und mein Hadoop-Namenknoten befindet sich auf dem AWS-Hostnamen p.q.rs.s. Für Entwicklungs-/POC-Zwecke haben wir konfluent in der gleichen Box gehalten, in der wir die kafka-Instanz laufen haben, d.h. auf a.b.c.d. Die HDFS-Clustergröße beträgt 500 GB.

Aber für Produktions-Setup, wo die Cluster-Größe 20-30 TB wäre, ist es ratsam, konfluent in der gleichen Box wie KAFKA-Instanz oder in Namenkasten oder eine separate Box zu halten? Wie viel separate Plattengröße würde in einem solchen Produktionsfall zusammenlaufen?

Antwort

1

Ich nehme an, Sie meinen die Connect-Mitarbeiter, wenn Sie sagen "konfluent", so dass dieser Kommentar auf dieser Annahme basiert. Am ratsamsten ist es, die Dienstleistungen nach Möglichkeit zu trennen. Führen Sie die Worker getrennt von den Brokern getrennt vom NameNode aus. Connect Worker benötigen nur wenig Speicherplatz, da sie keine Daten speichern (mit Ausnahme von Offset-Daten im Standalone-Modus). Im verteilten Modus können Sie die Mitarbeiter elastisch skalieren, sodass die Trennung auch für das langfristig skalierbare Setup besser ist.

Für Ihren Anwendungsfall müssen Sie einen Benchmark erstellen, um sicherzustellen, dass die Leistung akzeptabel ist, wenn Sie die Dinge in derselben Box ausführen möchten. Herauszufinden, ob es in Ordnung ist, gemeinsam zu suchen, ist in Wirklichkeit eine Beratungsfrage, die Details Ihres Anwendungsfalls auf ein Niveau erfordert, das für ein Online-Forum wahrscheinlich nicht angemessen ist.

Verwandte Themen