Konfigurieren der externen Datenquelle für Elastic MapReduce

Wir möchten Amazon Elastic MapReduce auf unserer aktuellen Datenbank verwenden (wir verwenden Cassandra auf EC2). Mit Blick auf die Amazon EMR FAQ, sollte es möglich sein: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Konfigurieren der externen Datenquelle für Elastic MapReduce

Allerdings, wenn Sie einen neuen Job-Flow erstellen, können wir nur einen S3-Bucket als Eingabedatenursprung konfigurieren.

Irgendwelche Ideen/Beispiele auf, wie dies zu tun?

Danke!

S.S .: Ich habe diese Frage How to use external data with Elastic MapReduce gesehen, aber die Antworten erklären nicht wirklich, wie man es macht/konfiguriert, einfach, dass es möglich ist.

Quelle

2012-08-29 Víctor Penela

Versuchen scp verwenden, um Dateien auf Ihre EMR-Instanz zu kopieren:

my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file

(oder verwenden ftp oder wget oder curl, oder irgendetwas anderes wollen Sie)

dann melden Sie sich in Ihre EMR-Instanz mit ssh und laden sie es in hadoop:

my-desktop-box$ ssh my-emr-node 
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file

Quelle

2013-03-27 05:53:33 Christopher

Wie sind Sie verarbeiten die Daten? EMR ist gerade geschafft hadoop. Sie müssen noch ein Verfahren irgendeiner Art zu schreiben.

Wenn Sie einen Hadoop Mapreduce-Job schreiben, schreiben Sie Java, und Sie können Cassandra API verwenden, um darauf zuzugreifen.

Wenn Sie etwas wie Hive verwenden möchten, müssen Sie einen Hive-Speicherhandler schreiben, um Daten zu verwenden, die von Cassandra gesichert werden.

Quelle

2013-06-24 05:46:22 prestomation

Konfigurieren der externen Datenquelle für Elastic MapReduce

Antwort

Verwandte Themen