2016-05-25 19 views
5

Ich versuche, eine Datei von amazon s3 (in Form eines DataFrame oder einer RDD) zu greifen, einige einfache Transformationen durchzuführen und dann die Datei an eine Tabelle in DynamoDB zu senden.Schreiben von Spark zu DynamoDB

Nachdem ich ein paar andere Forenbeiträge gelesen habe, habe ich verstanden, dass das Lesen/Schreiben in DynamoDB eine HadoopRDD erfordert - die sich von einer RDD in Spark unterscheidet - und eine andere als die, in der ich meine s3 abrufe Datei.

Wie würde ich ein DataFrame/RDD von einer Datei in s3 zu einem hadoopRDD ändern, damit ich es zurücksenden kann?

Ich benutze Scala und testen alles in Spark-Shell.

Vielen Dank nochmal im Voraus!

+0

Hallo @Willks haben Sie die Lösung erhalten, um RDD in Spark-Scala zu HadoopRDD konvertieren. – Yogesh

Antwort

0

Sie können EMR DynamoDB Connector von Amazon implementiert verwenden. Es implementiert sowohl DynamoDBInputFormat als auch DynamoDBOutputFormat, mit denen Daten von und nach DynamoDB gelesen und geschrieben werden können.

Sie können mehr darüber in diesem blog post lesen.

Verwandte Themen