2014-10-10 4 views
5

Ich möchte Spark-Code auf EC2 gegen Daten in meinem S3-Bucket ausgeführt werden. Nach der Spark EC2 documentation und der Amazon S3 documentation, muss ich meine AWS_ACCESS_KEY_ID und AWS_SECRET_ACCESS_KEY der core-site.xml-Datei hinzufügen. Wenn ich jedoch in meinen Master-EC2-Knoten hülle, sehe ich mehrere core-site.xml-Dateien.Welche core-site.xml füge ich meine AWS-Zugriffsschlüssel hinzu?

$ find . -name core-site.xml 
./mapreduce/conf/core-site.xml 
./persistent-hdfs/share/hadoop/templates/conf/core-site.xml 
./persistent-hdfs/src/packages/templates/conf/core-site.xml 
./persistent-hdfs/src/contrib/test/core-site.xml 
./persistent-hdfs/src/test/core-site.xml 
./persistent-hdfs/src/c++/libhdfs/tests/conf/core-site.xml 
./persistent-hdfs/conf/core-site.xml 
./ephemeral-hdfs/share/hadoop/templates/conf/core-site.xml 
./ephemeral-hdfs/src/packages/templates/conf/core-site.xml 
./ephemeral-hdfs/src/contrib/test/core-site.xml 
./ephemeral-hdfs/src/test/core-site.xml 
./ephemeral-hdfs/src/c++/libhdfs/tests/conf/core-site.xml 
./ephemeral-hdfs/conf/core-site.xml 
./spark-ec2/templates/root/mapreduce/conf/core-site.xml 
./spark-ec2/templates/root/persistent-hdfs/conf/core-site.xml 
./spark-ec2/templates/root/ephemeral-hdfs/conf/core-site.xml 
./spark-ec2/templates/root/spark/conf/core-site.xml 
./spark/conf/core-site.xml 

Nach einigen Experimenten stellte ich fest, dass ich nur eine S3N URL wie s3n://mcneill-scratch/GR.txt Spark zugreifen kann, wenn ich meine Zugangsdaten sowohl mapreduce/conf/Kern-site.xml und Funken/conf/Kern-Site hinzufügen. XML.

Das scheint mir falsch. Es ist nicht DRY, und ich kann nichts in der Dokumentation finden, die besagt, dass Sie Ihre Anmeldeinformationen zu mehreren Dateien hinzufügen müssen.

Ändert mehrere Dateien die richtige Methode zum Festlegen von s3-Anmeldeinformationen über core-site.xml? Gibt es irgendwo eine Dokumentation, die das erklärt?

Antwort

-1

./spark/conf/core-site.xml sollte der richtige Ort sein

Verwandte Themen