2016-07-11 4 views
0

Ich versuche gz Dateien auf s3 zuzugreifen, die mit _ in Apache Funken beginnen. Leider hält Spark diese Dateien für unsichtbar und gibt Input path does not exist: s3n:.../_1013.gz zurück. Wenn ich den Unterstrich entferne, findet er die Datei gut.Access-Dateien, die mit Unterstrich in Apache Funken beginnen

Ich habe versucht, eine benutzerdefinierte PathFilter zum hadoopConfig Zugabe:

package CustomReader 

import org.apache.hadoop.fs.{Path, PathFilter} 

class GFilterZip extends PathFilter { 
    override def accept(path: Path): Boolean = { 
    true 
    } 
} 
// in spark settings 
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter]) 

aber ich habe immer noch das gleiche Problem. Irgendwelche Ideen?

System: Apache Spark 1.6.0 mit Hadoop 2,3

Antwort

1

Dateien begann mit _ und. sind versteckte Dateien.

Und die hiddenFileFilter wird immer angewendet werden. Es befindet sich in Verfahren hinzugefügt org.apache.hadoop.mapred.FileInputFormat.listStatus

Check diese Antwort, which files ignored as input by mapper?

+0

Ihnen danken. das war, wovor ich Angst hatte ... – elmalto

Verwandte Themen