Also, ich bin neu in AWS S3 und Pyspark und Linux. Ich bin mir nicht sicher, wo ich anfangen soll. Hier ist meine Frage:Dateien im Verzeichnis auf AWS S3 mit pyspark/python auflisten
In Linux kann ich den folgenden Befehl ausgeben und Dateien im Ordner sehen:
aws s3 ls 's3://datastore/L2/parquet'
ähnliche Sache mit Python tun nicht funktioniert
import os
os.listdir('s3://datastore/L2/parquet')
Es gibt Fehler :
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
OSError: [Errno 2] No such file or directory: 's3://datastore/L2/parquet'
jedoch pyspark
und SQLContext.read.parquet
verstehen s es gut:
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet('s3://datastore/L2/parquet')
Gibt es Gründe, warum es in SQLContext
arbeitet und funktioniert nicht in os.listdir
? Wo kann ich anfangen, meine Verwirrung zu klären? Jede Antwort außer 'Get Bachelor in CS' wäre hilfreich.