2016-08-15 3 views
0

Ich versuche, große Datei an jeden Executor mit sparkContext.addFile-Methode zu liefern.SparkContext addFile verursacht FileNotFoundException

Quelle dieser großen Datei ist Amazon S3 (HINWEIS: Bei Quelle ist HDFS alles funktioniert)

val context = stream.context.sparkContext 
context.addFile("s3n://bucket-name/file-path") 
... 
SparkFiles.get(file-name) 

Das ist die Ursache für einen Fehler ist:

java.io.FileNotFoundException: File s3n://bucket-name/file-path does not exist. 
    at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.listStatus(S3NativeFileSystem.java:945) 
    at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.listStatus(S3NativeFileSystem.java:887) 
    at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.listStatus(EmrFileSystem.java:343) 
    at org.apache.spark.util.Utils$.fetchHcfsFile(Utils.scala:596) 
    at org.apache.spark.util.Utils$.doFetchFile(Utils.scala:566) 
    at org.apache.spark.util.Utils$.fetchFile(Utils.scala:356) 
    at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$updateDependencies$3.apply(Executor.scala:393) 
    at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$updateDependencies$3.apply(Executor.scala:390) 
    at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:772) 
    at scala.collection.mutable.HashMap$$anonfun$foreach$1.apply(HashMap.scala:98) 
    at scala.collection.mutable.HashMap$$anonfun$foreach$1.apply(HashMap.scala:98) 
    at scala.collection.mutable.HashTable$class.foreachEntry(HashTable.scala:226) 
    at scala.collection.mutable.HashMap.foreachEntry(HashMap.scala:39) 
    at scala.collection.mutable.HashMap.foreach(HashMap.scala:98) 
    at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:771) 
    at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$updateDependencies(Executor.scala:390) 
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:193) 
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 
    at java.lang.Thread.run(Thread.java:745) 

Aber wenn ich "fs -ls" mache, ist die Datei zugänglich

hadoop fs -ls s3n://bucket-name/file-path 

Was könnte der Grund sein?

PS: Spark-Version: 1.5.2

Antwort

0

Plötzlich war Credentials Problem. Wenn ich s3 URL geändert

s3n://accessKey:[email protected]/path 

Das Problem war gelöst.

Verwandte Themen