2017-05-29 9 views
1

Ich baue Azure IoT-Lösung für mein BI-Projekt. Für jetzt habe ich eine Anwendung, die einmal pro Zeitfenster ein .csv Blob an Azure Blob Storage mit inkrementaler Nummer im Namen sendet. Also werde ich nach einiger Zeit in meinem Speicher Dateien wie 'data1.csv', 'data2.csv', 'data3.csv' usw. haben.Azure IoT Data Warehouse-Aktualisierungen

Jetzt werde ich diese Daten in eine Datenbank laden müssen, die sei mein Lager mit dem Azure Stream Analytics-Job. Das Problem könnte sein, dass .CSV-Dateien überlappende Daten haben. Sie werden alle 4 Stunden gesendet und enthalten Daten für die letzten 24 Stunden. Ich muss immer nur die letzte Datei (mit der höchsten Nummer) lesen und die Suche vorbereiten, damit die Daten im Warehouse ordnungsgemäß aktualisiert werden. Was ist der beste Ansatz, um Stream Analytics dazu zu bringen, nur die letzte Datei zu lesen und Datensätze in der DB zu aktualisieren?

EDIT: Zur Klarstellung - ich bin mir völlig bewusst, dass ASA nicht in der Lage ist, ein ETL-Job zu sein. Meine Frage ist, was am besten Ansatz für meinen Fall wäre bei der Verwendung von IoT-Tool

+0

AFAIK ASA ist für Daten-Streaming und zurückspulen kann nicht oder weiterleiten, dass 'Strom' Daher wird es nicht möglich sein, die Überschneidung zu beheben. Vielleicht ist Azure Data Factory eine bessere Lösung. Oder speichern Sie die CSV-Dateien in Azure Data Lake Store und erstellen Sie mit Azure Data Lake Analytics einen Job, der die Daten transformiert. –

Antwort