PySpark: AWS s3n funktioniert, aber s3a nicht

Ich habe versucht, Daten auf Amazon S3 mit Spark auf meinem lokalen Rechner zuzugreifen. Ich kann Daten mit S3N zugreifen, aber nicht mit s3a, unten sind die KonfigurationenPySpark: AWS s3n funktioniert, aber s3a nicht

Funken: - 2.0.1 Pre gebaut mit hadoop 2,7

spark-defauts.conf parameters :- 
spark.jars.packages    com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.1 
spark.hadoop.fs.s3a.impl  org.apache.hadoop.fs.s3a.S3AFileSystem 
spark.hadoop.fs.s3a.access.key accesskey 
spark.hadoop.fs.s3a.secret.key secretkey 
spark.hadoop.fs.s3a.fast.upload true

Erste Fehler: -

Py4JJavaError: An error occurred while calling o235.partitions. 
: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400, AWS Service: Amazon S3, AWS Request ID: , AWS Error Code: null, AWS Error Message: Bad Request, S3 Extended Request ID: 
    at com.amazonaws.http.AmazonHttpClient.handleErrorResponse(AmazonHttpClient.java:798) 
    at com.amazonaws.http.AmazonHttpClient.executeHelper(AmazonHttpClient.java:421) 
    at com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:232) 
    at com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:3528) 
    at com.amazonaws.services.s3.AmazonS3Client.headBucket(AmazonS3Client.java:1031) 
    at com.amazonaws.services.s3.AmazonS3Client.doesBucketExist(AmazonS3Client.java:994) 
    at org.apache.hadoop.fs.s3a.S3AFileSystem.initialize(S3AFileSystem.java:297) 
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2669) 
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94) 
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703) 
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685) 
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373) 
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295) 
    at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:258) 
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229) 
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315) 
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:199) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:248) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:246) 
    at scala.Option.getOrElse(Option.scala:121) 
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:246) 
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:248) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:246) 
    at scala.Option.getOrElse(Option.scala:121) 
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:246) 
    at org.apache.spark.api.java.JavaRDDLike$class.partitions(JavaRDDLike.scala:60) 
    at org.apache.spark.api.java.AbstractJavaRDDLike.partitions(JavaRDDLike.scala:45) 
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
    at java.lang.reflect.Method.invoke(Method.java:498) 
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:237) 
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357) 
    at py4j.Gateway.invoke(Gateway.java:280) 
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) 
    at py4j.commands.CallCommand.execute(CallCommand.java:79) 
    at py4j.GatewayConnection.run(GatewayConnection.java:214) 
    at java.lang.Thread.run(Thread.java:745)

Wie kann Ich behebe diesen Fehler?

Quelle

2016-11-20 Mayank

Vielleicht verwandt: [Spark lesen Datei von S3 mit sc.textFile ("s3n: // ...)]" (http://stackoverflow.com/questions/30851244/spark-read-file-from-s3-using-) sc-textfile-s3n) und [Zugriff auf in Amazon S3 gespeicherte Daten über Spark] (http://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_s3.html) –

Sie versuchen wahrscheinlich, mit Seoul, Frankfurt oder einem anderen Bucket in einer V4-Auth-Only-Region zu arbeiten, aber der Endpunkt ist weiterhin auf den Standard von us-east eingestellt.

Ändern Sie den Wert von fs.s3a.endpoint in den entsprechenden Wert. Siehe "Arbeiten mit Eimern in verschiedenen Regionen"

https://github.com/apache/hadoop/blob/trunk/hadoop-tools/hadoop-aws/src/site/markdown/tools/hadoop-aws/index.md

ps: sehr vorsichtig sein mit schnellen Upload in Hadoop 2.7; anfällig für OOMs, es sei denn, Sie passen Warteschlangenlängen an. Wurde für Hadoop 2.8 komplett neu geschrieben, wobei die Standardpufferung auf HDD erfolgt.

Quelle

2016-11-21 13:09:04

PySpark: AWS s3n funktioniert, aber s3a nicht

Antwort

Verwandte Themen