Ich schreibe eine benutzerdefinierte Funktion, die alle Spalten mit Ausnahme der ersten in einem Datenrahmen und Summe (oder eine andere Operation) nehmen wird. Jetzt kann der Datenrahmen manchmal 3 Spalten oder 4 Spalten oder mehr haben. Es wird variieren.Pyspark: Pass mehrere Spalten in UDF
Ich weiß, ich kann 4 Spaltennamen als Pass in der UDF fest codieren, aber in diesem Fall wird es variieren, also würde ich gerne wissen, wie man es schafft?
Hier sind zwei Beispiele in der ersten haben wir zwei Spalten hinzufügen und in der zweiten haben wir drei Spalten hinzuzufügen.
Funktioniert auch in Scala: 'myUdf (array ($" col1 ", $" col2 "))' –
Wie kann es für Spalten mit verschiedenen Typen implementiert werden? – constructor
@constructor Sie können 'array' verwenden, wenn auch Summenzahlen verschiedener Typen (d. H. Ganzzahlig und doppelt -> beide werden doppelt addiert) – Mariusz