Ich habe eine kategorische Spalte in einem Datenrahmen, die einige Ebenen hat, und jetzt möchte ich jene weniger häufigen Ebenen ersetzen (die Frequenzen in Prozent von insgesamt weniger als a haben angegebener Prozentsatz) mit der häufigsten Stufe. Wie würde ich das auf elegante und kompakte Weise erkennen?PySpark ersetzt seltenere Elemente durch die am häufigsten vorkommenden Elemente
Unten ist ein Beispiel, wenn ich die spezifizierte Frequenz als 0.3 setze, dann sollte Niveau "c" durch Niveau "a" ersetzt werden, da seine Frequenz nur 1/6 ist, die unter 0.3 ist.
from pyspark.sql import Row
row = Row("foo")
df = sc.parallelize([ row("a"), row("b"), row("c"), row("a"), row("a"), row("b") ]).toDF()
@Wayne Vielleicht sollten Sie [akzeptieren die Antwort] (https://stackoverflow.com/help/someone-answers), wenn es Ihnen geholfen, Ihr Problem zu lösen. – Prem
Danke Prem, es funktioniert! – Wayne
Froh, dass es geholfen hat :) – Prem