-1
Ich möchte mehrere Textdokumente aus einem Verzeichnis für Document Clustering lesen. Dafür möchte ich Daten lesen als:Wie lesen Sie mehrere Textdateien in Spark für Dokumentcluster?
SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster("local[*]").set("spark.executor.memory", "2g");
JavaSparkContext context = new JavaSparkContext(sparkConf);
SparkSession spark = SparkSession.builder().config(sparkConf).getOrCreate();
Dataset<Row> dataset = spark.read().textFile("path to directory");
Hier, ich habe nicht
JavaPairRDD data = context.wholeTextFiles (Pfad) verwendet werden soll; weil ich Dataset als Rückgabetyp möchte.