2016-02-04 8 views
8

Ich habe ein Programm geschrieben, um Elemente in die DynamoDB-Tabelle zu schreiben. Jetzt möchte ich alle Elemente aus der DynamoDB-Tabelle mit PySpark lesen. Gibt es Bibliotheken in Spark?Verbinden von DynamoDB aus Spark-Programm, um alle Elemente aus einer Tabelle mit Python zu laden?

+0

Wir sind Sie in der Lage dies zu tun? – rabz100

+0

Nein, ich habe nur verwendet, was Boto-Dokumentation ohne Funken zur Verfügung gestellt hat. –

+1

Ich würde versuchen, diesen Code zu optimieren - https://github.com/bchew/dynamodump –

Antwort

1

Sie können parallel scans als Teil der DynamoDB API bis boto3 und ein Schema wie die parallele S3-Dateiverarbeitung Anwendung für PySpark beschrieben here beschrieben verwenden. Grundsätzlich, anstatt alle Schlüssel a-priori zu lesen, erstellen Sie einfach eine Liste von Segmentnummern und schreiben die maximale Anzahl der Segmente für den Scan in der map_func Funktion für Spark fest.

Verwandte Themen