2012-08-29 8 views
10

Wir möchten Amazon Elastic MapReduce auf unserer aktuellen Datenbank verwenden (wir verwenden Cassandra auf EC2). Mit Blick auf die Amazon EMR FAQ, sollte es möglich sein: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Konfigurieren der externen Datenquelle für Elastic MapReduce

Allerdings, wenn Sie einen neuen Job-Flow erstellen, können wir nur einen S3-Bucket als Eingabedatenursprung konfigurieren.

Irgendwelche Ideen/Beispiele auf, wie dies zu tun?

Danke!

S.S .: Ich habe diese Frage How to use external data with Elastic MapReduce gesehen, aber die Antworten erklären nicht wirklich, wie man es macht/konfiguriert, einfach, dass es möglich ist.

Antwort

0

Versuchen scp verwenden, um Dateien auf Ihre EMR-Instanz zu kopieren:

my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file 

(oder verwenden ftp oder wget oder curl, oder irgendetwas anderes wollen Sie)

dann melden Sie sich in Ihre EMR-Instanz mit ssh und laden sie es in hadoop:

my-desktop-box$ ssh my-emr-node 
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file 
1

Wie sind Sie verarbeiten die Daten? EMR ist gerade geschafft hadoop. Sie müssen noch ein Verfahren irgendeiner Art zu schreiben.

Wenn Sie einen Hadoop Mapreduce-Job schreiben, schreiben Sie Java, und Sie können Cassandra API verwenden, um darauf zuzugreifen.

Wenn Sie etwas wie Hive verwenden möchten, müssen Sie einen Hive-Speicherhandler schreiben, um Daten zu verwenden, die von Cassandra gesichert werden.

Verwandte Themen