Ich versuche, eine Textdatei auf Amazon EMR mit den Python-Spark-Bibliotheken zu lesen. Die Datei befindet sich im Home-Verzeichnis (/ home/hadoop/wet0), aber Spark scheint es nicht zu finden.Spark/Hadoop kann Datei auf AWS EMR nicht finden
Linie in Frage:
lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])
Fehler:
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'
Ist die Datei in einem bestimmten Verzeichnis sein? Informationen dazu kann ich nirgends auf der AWS-Website finden.
Würde es dir etwas ausmachen, die Ausgabe von 'hadoop fs -ls/user/hadoop /' zu drucken? – eliasah