Ich bin neu in Pyspark. Ich habe ein Dataset, das kategorische Features enthält, und ich möchte Regressionsmodelle von Pyspark verwenden, um kontinuierliche Werte vorherzusagen. Ich stehe bei der Vorverarbeitung von Daten fest, die für die Verwendung von MLlib-Modellen erforderlich sind.Ist es notwendig, kategorische Attribute in numerische Attribute umzuwandeln, um die LabeledPoint-Funktion in Pyspark zu verwenden?
0
A
Antwort
0
Ja, es ist notwendig. Sie müssen nicht nur in Zahlen konvertieren, sondern auch kodieren, um sie für lineare Modelle nützlich zu machen. Beide Schritte werden in pyspark.ml
umgesetzt (nicht mllib
) mit:
pyspark.ml.feature.StringIndexer
- Indizierung.pyspark.ml.feature.OneHotEncoder
- Codierung.
Verwandte Themen
- 1. XPath verwenden, um Attribute auszuschließen?
- 2. Ist es möglich, Attribute für Delphi-Methodenargumente zu verwenden?
- 3. Sind Noreturn-Attribute bei bestehenden Funktionen notwendig?
- 4. Ist es in Ordnung HTML in HTML-Attribute zu setzen?
- 5. Es ist wirklich notwendig, Modernizr zu verwenden?
- 6. Ist es möglich, gleichzeitig die Attribute center und bounds in Leaflet.js zu verwenden?
- 7. Ist es noch früh, die Attribute ARIA zu studieren?
- 8. Nominale Attribute in LibSVM
- 9. Ist es wirklich notwendig, url.openConnection() zu verwenden?
- 10. Alternativen zu „#“ in href Attribute
- 11. Ist es in Ordnung, statische Attribute zur Laufzeit zu manipulieren?
- 12. Ist es notwendig, "schwach" in Swift zu verwenden?
- 13. Wie verwende ich kategorische Attribute als Eingabe für einen Clustering-Algorithmus?
- 14. Verwenden Attribute für Wertetupeln
- 15. Wenn es notwendig ist, Klassen in PHP zu verwenden
- 16. Ist es notwendig, $ ionicPlatform.ready() in jedem Controller zu verwenden?
- 17. Uniform versus Attribute in GLSL ES
- 18. Wie Attribute zu erhalten, die
- 19. mehrwertige Attribute in Datenbanken
- 20. Ist es in Ordnung, HTML-Elementen eigene Attribute hinzuzufügen?
- 21. C++ Ist es richtig, Klassenmitgliedsvariablen "Attribute" aufzurufen?
- 22. XPath, um doppelte Attribute zu finden?
- 23. Ist es notwendig, die Inhaltslänge in meinem Antwortheader zu setzen?
- 24. Ist es möglich, leere verschachtelte Attribute in Python abzufangen?
- 25. Verwenden jackson Unterklasse zu wickeln Attribute in einen Unterschlüssel
- 26. Was ist der Unterschied zwischen attr_accessible (* Attribute) & attr_protected (* Attribute)?
- 27. Caching-Attribute in Super
- 28. Ist es legal, eigene CSS-Attribute zu erstellen?
- 29. Um beschreibende Attribute zu erhalten, checks in aws
- 30. Ist eine extrem heterogene Attribute zu verwenden, um automatisch ein Event auf einer Eigenschaftsänderung zu erhöhen