Ich schrieb Vectors (org.apache.spark.mllib.linalg.Vector)
zum HDFS
wie dem folgendenJava Read Write Funken Vectors auf HDFS
public void writePointsToFile(Path path, FileSystem fs, Configuration conf,
List<Vector> points) throws IOException {
SequenceFile.Writer writer = SequenceFile.createWriter(conf,
Writer.file(path), Writer.keyClass(LongWritable.class),
Writer.valueClass(Vector.class));
long recNum = 0;
for (Vector point : points) {
writer.append(new LongWritable(recNum++), point);
}
writer.close();
}
(nicht sicher, dass ich die richtigen Art und Weise verwendet, das zu tun, kann es noch nicht testen)
jetzt muss ich diese Datei als JavaRDD<Vector>
lesen, weil ich es in Spark Clustering K-mean
verwenden möchte, aber nicht weiß, wie dies zu tun ist.
vielen Dank für Ihre Antwort, können Sie mir bitte sagen, wie die JavaPairRDD in eine JavaRDD konvertieren.? –
Emad
Ich habe ein Kartenfunktionsbeispiel hinzugefügt, um es in eine JavaRDD umzuwandeln –