Für die Art der Einrichtung, wo TBs von Datensätzen auf die KAFKA-Themen geschrieben werden sollten, was ist der beste Weg, KAFKA connect - HDFS-Connector zu verwenden?Best Practice bei der Verwendung von kafka connect
Meine Kafka-Instanz läuft auf dem AWS-Hostnamen a.b.c.d und mein Hadoop-Namenknoten befindet sich auf dem AWS-Hostnamen p.q.rs.s. Für Entwicklungs-/POC-Zwecke haben wir konfluent in der gleichen Box gehalten, in der wir die kafka-Instanz laufen haben, d.h. auf a.b.c.d. Die HDFS-Clustergröße beträgt 500 GB.
Aber für Produktions-Setup, wo die Cluster-Größe 20-30 TB wäre, ist es ratsam, konfluent in der gleichen Box wie KAFKA-Instanz oder in Namenkasten oder eine separate Box zu halten? Wie viel separate Plattengröße würde in einem solchen Produktionsfall zusammenlaufen?