ich die Reihe von Funktionen leite.Werden pyspark tfidf-Transformation Indexpositionen beibehalten?
hashingTF = HashingTF()
documents = sc.parallelize(df.content_list.values)
tf = hashingTF.transform(documents)
tf.cache()
idf = IDF(minDocFreq=2).fit(tf)
tfidf = idf.transform(tf)
aber ich bin nicht sicher, ob diese in der gleichen Position bleiben sie in eingesetzt wurden
Gibt es eine Möglichkeit, diese wieder an ihren ursprünglichen Wert abzubilden oder index?
Danke, das gibt mir viel mehr Vertrauen in meine Operationen – user1340048