Verbinden von DynamoDB aus Spark-Programm, um alle Elemente aus einer Tabelle mit Python zu laden?

Ich habe ein Programm geschrieben, um Elemente in die DynamoDB-Tabelle zu schreiben. Jetzt möchte ich alle Elemente aus der DynamoDB-Tabelle mit PySpark lesen. Gibt es Bibliotheken in Spark?Verbinden von DynamoDB aus Spark-Programm, um alle Elemente aus einer Tabelle mit Python zu laden?

Quelle

2016-02-04 sms_1190

Wir sind Sie in der Lage dies zu tun? – rabz100

Nein, ich habe nur verwendet, was Boto-Dokumentation ohne Funken zur Verfügung gestellt hat. –

Ich würde versuchen, diesen Code zu optimieren - https://github.com/bchew/dynamodump –

Sie können parallel scans als Teil der DynamoDB API bis boto3 und ein Schema wie die parallele S3-Dateiverarbeitung Anwendung für PySpark beschrieben here beschrieben verwenden. Grundsätzlich, anstatt alle Schlüssel a-priori zu lesen, erstellen Sie einfach eine Liste von Segmentnummern und schreiben die maximale Anzahl der Segmente für den Scan in der map_func Funktion für Spark fest.

Quelle

2017-02-13 13:20:31

Verbinden von DynamoDB aus Spark-Programm, um alle Elemente aus einer Tabelle mit Python zu laden?

Antwort

Verwandte Themen