0

Ich verfolge diese guide, um Echtzeit-Web-Traffic-Daten in S3 zu laden, konfiguriere Lambda zum Laden in den ES-Domain-Index. Momentan erstelle ich für jeden Datensatz eine neue JSON-Datei im S3-Bucket mit dem Namen {GUID} .json, die nur eine Zeile enthält. zum Beispiel: SoAWS ElasticSearch Laden von Streaming-Daten

{"email":"[email protected]","firstname":"Hello","lastname":"World"} 

wenn diese live geht, wird es Millionen von json Dateien in S3 Eimer laden dann in ES über Lambda-Funktion geschoben bekommen. Ist dies der richtige Ansatz zum Laden von Streaming-Daten? Oder sollte ich einen geplanten Prozess entwickeln, um mehrere Datensätze pro Stunde zu aggregieren, zum Beispiel 10k-Datensätze pro JSON-Datei, die dann in S3-Bucket hochgeladen werden? Ich fühle, dass das technisch nicht "Echtzeit Streaming" ist.

Irgendwelche Vorschläge?

Antwort

1

Haben Sie versucht, AWS Kinesis Firehose zum Laden von Streamingdaten in ElasticSearch zu verwenden?

Referenz: https://aws.amazon.com/kinesis/firehose/firehose-to-elasticsearch-service/

Es wäre der größte Teil der Notwendigkeit Aufwand auf Ihrer Seite wegzunehmen.

+0

Grüße. Bitte besuche [Take a tour] (http://stackoverflow.com/tour) und [Deine Antwort ist in einem anderen Schloss: Wann ist eine Antwort, keine Antwort] (http://meta.stackexchange.com/questions/225370) zu verstehen, warum Link-Only-Antworten keine Antworten sind. Ihre Antwort könnte mit kleinen Änderungen verbessert werden. Danke. – Drew

Verwandte Themen