Ich versuche, Googles vortrainierte Vektoren 'GoogleNews-Vektoren-negative300.bin.gz' Google-word2vec in Funken zu laden.Laden eines trainierten Word2Vec-Modells in Spark
Ich konvertierte die bin-Datei in txt und erstellte einen kleineren Chunk zum Testen, dass ich "vectors.txt" nannte. Ich habe versucht, es wie folgt geladen:
val sparkSession = SparkSession.builder
.master("local[*]")
.appName("Word2VecExample")
.getOrCreate()
val model2= Word2VecModel.load(sparkSession.sparkContext, "src/main/resources/vectors.txt")
val synonyms = model2.findSynonyms("the", 5)
for((synonym, cosineSimilarity) <- synonyms) {
println(s"$synonym $cosineSimilarity")
}
und zu meiner Überraschung ich mit dem folgenden Fehler bin konfrontiert:
Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/elievex/Repository/ARCANA/src/main/resources/vectors.txt/metadata
Ich bin mir nicht sicher, wo die ‚Metadaten‘ tat nach dem Wort ‚vectors.txt ' kam aus. Ich verwende Spark, Scala und Scala IDE für Eclipse.
Was mache ich falsch? Gibt es eine andere Möglichkeit, ein vortrainiertes Modell in Spark zu laden? Würde mich über irgendwelche Tipps freuen.