2017-05-30 4 views
0

Ich habe einen Fehler beim Lesen einer lokalen Datei in Apache Funke. scala> val f = sc.textFile ("/ home/cloudera/Downloads/sample.txt")Fehler beim Lesen der Datei mit Funken

f: org.apache.spark.rdd.RDD[String] = /home/cloudera/Downloads/sample.txt MapPartitionsRDD[9] at textFile at <console>:27 

scala> f.count()

org.apache.hadoop .mapred.InvalidInputException: Eingabepfad ist nicht vorhanden: hdfs: //quickstart.cloudera: 8020/home/cloudera/Downloads/sample.txt unter org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus (FileInputFormat.java: 287) um org.apache.hadoop.mapred.File InputFormat.listStatus (FileInputFormat.java:229) bei org.apache.hadoop.mapred.FileInputFormat.getSplits (FileInputFormat.java:315) bei org.apache.spark.rdd.HadoopRDD.getPartitions (HadoopRDD.scala: 202) um org.apache.spark.rdd.RDD $$ anonfun $ Partitionen $ 2.apply (RDD.scala: 239) um org.apache.spark.rdd.RDD $$ anonfun $ Partitionen $ 2.Anwendung (RDD .scala: 237) bei scala.Option.getOrElse (Option.scala: 120) um org.apache.spark.rdd.RDD.partitions (RDD.scala: 237) um org.apache.spark.rdd.MapPartitionsRDD .getPartitions (MapPartitionsRDD.scala: 35) bei org.apache.spark.rdd.RDD $$ anonfun $ Partitionen $ 2.Apply (RDD.scala: 239) um org.apache.spark.rdd.RDD $$ anonfun $ Partitionen $ 2.apply (RDD.scala: 237) bei scala.Option.getOrElse (Option.scala: 120) um org.apache.spark.rdd .RDD.partitions (RDD.scala: 237) um org.apache.spark.SparkContext.runJob (SparkContext.scala: 1959) um org.apache.spark.rdd.count (RDD.scala: 1157) um iwc $ $$ iwc $$ iwc $$ iwc $$ iwc $$ iwc $$ iwc $$ iwc. (30) bei $ iwc $$ iwc $$ iwc $$ iwc $$ iwc $$ iwc $$ iwc. (35) bei $ iwc $$ iwc $$ iwc $$ iwc $$ iwc $$ iwc. (37) bei $ iwc $$ iwc $$ iwc $$ iwc $$ iwc. (: 39) um $ iwC $$ iwC $$ iwC $$ iwC. (: 41) um $ iwC $$ iwC $$ iwC. (: 43) bei $ iwC $$ iwC. (: 45) bei $ iwC. (: 47) um (: 49) um . (: 53) at.() bei . (7) in() bei $ print() bei sun.reflect.NativeMethodAccessorImpl.invoke0 (Mutter Methode) bei sun.reflect.NativeMethodAccessorImpl.invoke (NativeMethodAccessorImpl.java:57) bei Sonne.. reflect.DelegatingMethodAccessorImpl.invoke (DelegatingMethodAccessorImpl.java:43) unter java.lang.reflect.Method.invoke (Method.java:606) um org.apache.spark.repl.SparkIMain $ ReadEvalPrint.call (SparkIMain.scala: 1045) bei org.apache.spark.repl.SparkIMain $ Request.loadAndRun (SparkIMain.scala: 1326) bei org.apache.spark.repl.SparkIMain.loadAndRunReq von $ 1 (SparkIMain.scala: 821) bei org .apache.spark.repl.SparkIMain.interpret (SparkIMain.scala: 8 52) bei org.apache.spark.repl.SparkIMain.interpret (SparkIMain.scala: 800) bei org.apache.spark.repl.SparkILoop.reallyInterpret von $ 1 (SparkILoop.scala: 857) bei org.apache .spark.repl.SparkILoop.interpretStartingWith (SparkILoop.scala: 902) bei org.apache.spark.repl.SparkILoop.command (SparkILoop.scala: 814) um org.apache.spark.repl.SparkILoop.processLine $ 1 (SparkILoop.scala: 657) bei org.apache.spark.repl.SparkILoop.innerLoop $ 1 (SparkILoop.scala: 665) um org.apache.spark.repl.SparkILoop.org $ apache $ funken $ repl $ SparkILoop $$ loop (SparkILoop.scala: 670) um org.apache.spark.repl.SparkILoop $$ anonfun $ org $ apache $ spark $ repl $ SparkILoop $$ Prozess $ 1.apply $ mcZ $ sp (SparkILoop.scala: 997) um org.apache.spark.repl.SparkILoop $$ anonfun $ org $ apache $ spark $ repl $ SparkILoop $$ Prozess $ 1.apply (SparkILoop.scala: 945) unter org.apache.spark.repl.SparkILoop $$ anonfun $ org $ apache $ spark $ repl $ SparkILoop $$ Prozess $ 1.apply (SparkILoop.scala: 945) um scala.tools.nsc.util.ScalaClassLoader $ .savingContextLoader (ScalaClassLoader.scala: 135) um org.apache.spark.repl.SparkILoop.org $ apache $ funken $ repl $ SparkILoop $$ Prozess (SparkILoop.scala: 945) bei org.apache.spark.repl .SparkILo op.process (SparkILoop.scala: 1064) bei org.apache.spark.repl.Main $ .main (Main.scala: 35) um org.apache.spark.repl.Main.main (Main.scala) um sun.reflect.NativeMethodAccessorImpl.invoke0 (native Methode) bei sun.reflect.NativeMethodAccessorImpl.invoke (NativeMethodAccessorImpl.java:57) bei sun.reflect.DelegatingMethodAccessorImpl.invoke (DelegatingMethodAccessorImpl.java:43) bei java.lang .reflect.Method.invoke (Methode.java:606) um org.apache.spark.deploy.Sparkmit $ .org $ apache $ spark $ deploy $ SparkSubmit $$ runMain (SparkSubmit.scala: 730) um org. apache.spark.deploy.SparkSubmit $ .doRunMain $ 1 (SparkSubmit.scala: 181) bei org.apache.spark.deploy.SparkSubmit $ .su bmit (SparkSubmit.scala: 206) bei org.apache.spark.deploy.SparkSubmit $ .main (SparkSubmit.scala: 121) bei org.apache.spark.deploy.SparkSubmit.main (SparkSubmit.scala)

Antwort

1

Sie müssen den Dateipfad angeben. Der Pfad muss angegeben werden, wenn Sie den Hadoop-Pfad festgelegt haben.

sc.textFile("file:///home/cloudera/Downloads/sample.txt") 

Hoffe, das hilft!

+0

scala> f.count() [Stufe 0:> (0 + 0)/2] 17/05/30 02:38:26 WARN cluster.YarnScheduler: Der erste Job hat keine Ressourcen akzeptiert; Überprüfen Sie Ihre Cluster-Benutzeroberfläche, um sicherzustellen, dass die Worker registriert sind und über ausreichende Ressourcen verfügen 17/05/30 02:39:16 ERROR scheduler.LiveListenerBus: org.apache.spark.SparkException: Job 0 abgebrochen, weil SparkContext heruntergefahren wurde –

+0

sind du versuchst lokal oder garn zu laufen? –

+0

hier ist ein schöner Artikel darüber https://www.datastax.com/dev/blog/common-spark-troubleshooting –