Wie lesen Sie mehrere Textdateien in Spark für Dokumentcluster?

-1

Ich möchte mehrere Textdokumente aus einem Verzeichnis für Document Clustering lesen. Dafür möchte ich Daten lesen als:Wie lesen Sie mehrere Textdateien in Spark für Dokumentcluster?

SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster("local[*]").set("spark.executor.memory", "2g"); 
JavaSparkContext context = new JavaSparkContext(sparkConf); 
SparkSession spark = SparkSession.builder().config(sparkConf).getOrCreate(); 
Dataset<Row> dataset = spark.read().textFile("path to directory");

Hier, ich habe nicht
JavaPairRDD data = context.wholeTextFiles (Pfad) verwendet werden soll; weil ich Dataset als Rückgabetyp möchte.

Quelle

2017-12-12 Sandeep Joshi

In scala könnten Sie schreiben:

context.wholeTextFiles("...").toDS()

in Java benötigen Sie einen Encoder verwenden. Siehe the javadoc for more detail.

JavaPairRDD<String, String> rdd = context.wholeTextFiles("hdfs:///tmp/test_read"); 
Encoder<Tuple2<String, String>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.STRING()); 
spark.createDataset(rdd.rdd(), encoder).show();

Quelle

2017-12-12 14:29:25 Oli

Wie lesen Sie mehrere Textdateien in Spark für Dokumentcluster?

Antwort

Verwandte Themen