Ich habe Spark 1.3.0 und möchte eine Reihe von Parkett-Dateien basierend auf Mustervergleich lesen. Die Parkett-Dateien sind im Grunde die zugrunde liegenden Dateien einer Hive-DB und ich möchte nur einige der Dateien (über verschiedene Ordner) lesen. Die Ordnerstruktur istLesen Sie Parkett-Dateien in Spark mit passendem Muster
hdfs://myhost:8020/user/hive/warehouse/db/blogs/some/meta/files/
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160101/01/file1.parq
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160101/02/file2.parq
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160103/01/file3.parq
So etwas wie
val v1 = sqlContext.parquetFile("hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd={[0-9]*}")
ich die Meta-Dateien und laden nur die Parkett-Dateien in dem Ordner Datum ignoriert werden soll. Ist das möglich?