Ich versuche mit dem pySpark auf s3-Dateien vom lokalen Funke-Kontext zuzugreifen. Ich halte File "C:\Spark\python\lib\py4j-0.9-src.zip\py4j\protocol.py", line 308, in get_return_value py4j.protocol.Py4JJavaError: An error occurred while calling o20.parquet. : java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3native.NativeS3FileSystem not found
Klasse org.apache.hadoop.fs.s3native.NativeS3FileSystem nicht gefunden (Spark 1.6 Windows)
bekomme ich os.environ['AWS_ACCESS_KEY_ID']
und os.environ['AWS_SECRET_ACCESS_KEY']
gesetzt hatte, bevor ich df = sqc.read.parquet(input_path)
genannt. Ich fügte auch diese Zeilen hinzu: hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem") hadoopConf.set("fs.s3.awsSecretAccessKey", os.environ["AWS_SECRET_ACCESS_KEY"]) hadoopConf.set("fs.s3.awsAccessKeyId", os.environ["AWS_ACCESS_KEY_ID"])
Ich habe auch versucht, s3
zu s3n
, s3a
zu ändern. Keine funktionierte.
Irgendeine Idee, wie es funktioniert? Ich bin auf 10 Windows pySpark Spark 1.6.1 für Hadoop gebaut 2.6.0
Es ist hilfreich für mich in Linux. –