2017-08-29 3 views
0

Consumer-transformationProducer-transformationApache Kafka Verbraucher nehmen lange Zeit, wenn als Plugin in Pentaho verwendet

ZIEL: Transfer Tabellen (120 Tabellen) aus Oracle-Datenbank zu vertica Datenbank.

Die derzeitige Praxis: Verwenden pentaho Werkzeugdaten aus Oracle-Datenbank zu extrahieren und sie als Datei speichern und laden sie wieder in vertica Datenbank.

Problem konfrontiert: Der gesamte Prozess läuft für eine lange Zeit. Das Speichern als Datei belegt mehr Platz und reduziert die Leistung.

Neuer Ansatz: Verwenden Sie Kafka als Messaging-System und sein Plugin in Pentaho.

Problem konfrontiert: Consumer-Plugin nimmt sehr viel Zeit für die Nachrichtenraubend und Laden in vertica Tabellen (6-mal die Zeit für das Laden Nachricht in Produzenten genommen).. 1. Avro-Format 2. Beispiel von 2 Millionen Datensätzen mit 200 Spalten

Wir würden gerne Vorschläge hören, um diese Leistung zu verbessern oder eine andere Möglichkeit vorschlagen, das Ziel mit Kafka zu erreichen.

+0

Verwenden Sie Pentaho 7? – AlainD

+0

Ja, ich benutze Pentaho 7.1 – Anjana

Antwort

0

This document vorschlagen, den Vertica Bulk Loader Schritt direkt nach dem Oracle Table input zu verwenden.

+0

Ich muss einige Spalten hinzufügen und einige Änderungen an meinen Quelldaten vor dem Laden in Vertica vornehmen, so dass ich Vertica Bulk Loader Schritt nicht sofort nach Eingabe der Tabelle hinzufügen kann. – Anjana

+0

Aber versuchte Vertica Bulk Loader nach all meinen Änderungen und Ergänzungen der Spalte, noch ist die Leistung fast gleich. Details entnehmen Sie bitte dem Screenshot – Anjana