Ich möchte pyspark.mllib.stat.Statistics.corr
Funktion verwenden, um die Korrelation zwischen zwei Spalten von pyspark.sql.dataframe.DataFrame
Objekt zu berechnen. corr
Funktion erwartet, eine rdd
von Vectors
Objekte zu nehmen. Wie übersetze ich eine Spalte von df['some_name']
zu rdd
von Vectors.dense
Objekt?Pyspark Computing Korrelation
5
A
Antwort
5
Das sollte nicht nötig sein. Für numerische können Sie Korrelation berechnen direkt DataFrameStatFunctions.corr
mit:
df1 = sc.parallelize([(0.0, 1.0), (1.0, 0.0)]).toDF(["x", "y"])
df1.stat.corr("x", "y")
# -1.0
sonst kann man VectorAssembler
verwenden:
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=df.columns, outputCol="features")
assembler.transform(df).select("features").flatMap(lambda x: x)
1
Ok ich es herausgefunden:
v1 = df.flatMap(lambda x: Vectors.dense(x[col_idx_1]))
v2 = df.flatMap(lambda x: Vectors.dense(x[col_idx_2]))
Verwandte Themen
- 1. Distributed Computing
- 2. Duplizierter Workflow mit Korrelation
- 3. Korrelation in R
- 4. Korrelation Clustering in R
- 5. Korrelation Corrplot Konfiguration
- 6. Korrelation zwischen zwei Vektoren?
- 7. Graph Korrelation Entdeckung Algorithmus
- 8. Korrelation mehrerer dynamischer Werte
- 9. Kategorische Daten Korrelation Matlab
- 10. Verständnis Korrelation in Mysql
- 11. Karte reduzieren - pearson Korrelation
- 12. Maximale Cloud-Computing-Nutzung - Zahlen Sie für Computing, nicht Leerlaufzeit
- 13. db-optimierung: computing rank
- 14. Parallel Computing - Shuffle
- 15. Computing N Grams Python
- 16. JavaScript verteilte Computing-Projekt
- 17. Computing mit Spalten Pandas
- 18. cloud computing in android
- 19. Cluster-Computing in Go
- 20. Computing HOG-Funktionen
- 21. Python - Fibonacci Computing Zeitunterschied
- 22. Setting/Computing Normals Ausgabe
- 23. Computing Artikel Abstracts
- 24. Computing durchschnittliche Rastergröße
- 25. Computing MD5-Hash
- 26. Importieren Pyspark Fehler Pyspark mit Python 3.5.1
- 27. Entity Framework Spalten-Entity-Korrelation?
- 28. Matlab Spearman Korrelation PVAL = 0?
- 29. Korrelation zwischen Spezifizierer und Qualifier?
- 30. Korrelation zwischen Arrays in Python
Es nur pearson unterstützt. – VJune