Ich versuche, einen zufälligen Gesamtstrukturklassifizierer mit pyspark.ml-Bibliothek für Datenrahmen (nicht mllib für RDD) zu erstellen. Muss ich die Pipeline verwenden, wie in der Dokumentation angegeben? Ich möchte nur ein einfaches Modell konstruieren,Random Forest mit pyspark.ml für Datenrahmen
rf = RandomForestClassifier(labelCol = labs, featuresCol = rawdata)
Ich laufe in den folgenden Fehler
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/spark/python/pyspark/__init__.py", line 104, in wrapper
return func(self, **kwargs)
File "/usr/lib/spark/python/pyspark/ml/classification.py", line 910, in __init
__
self.setParams(**kwargs)
File "/usr/lib/spark/python/pyspark/__init__.py", line 104, in wrapper
return func(self, **kwargs)
File "/usr/lib/spark/python/pyspark/ml/classification.py", line 928, in setPar
ams
return self._set(**kwargs)
File "/usr/lib/spark/python/pyspark/ml/param/__init__.py", line 421, in _set
raise TypeError('Invalid param value given for param "%s". %s' % (p.name, e)
)
TypeError: Invalid param value given for param "labelCol". Could not convert <cl
ass 'pyspark.sql.dataframe.DataFrame'> to string type
Eine Probe meiner Etiketten
+---+
| _2|
+---+
|0.0|
|1.0|
|0.0|
|0.0|
|0.0|
|0.0|
|1.0|
|1.0|
|1.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|1.0|
|1.0|
+---+
Meine Daten mit 180 Spalten ähnlich ist.
Sie müssen Pipelines nicht benutzen. Für weitere Hilfe, bitte geben Sie ein Beispiel Ihrer Daten – desertnaut
Ich habe den Beitrag bearbeitet. Vielen Dank. – Nivi