PySpark fügt dem Datenframe neue Spalte mit neuer Liste hinzu

Basiert auf vorherigen Fragen: 1, 2. Angenommen, ich die folgende Datenrahmen haben:PySpark fügt dem Datenframe neue Spalte mit neuer Liste hinzu

df = spark.createDataFrame(
    [(1, "a", 23.0), (3, "B", -23.0)], 
    ("x1", "x2", "x3"))

Und ich möchte neue Spalte hinzufügen x4 aber ich habe Wert in einer Liste von Python anstatt auf die neue Spalte hinzuzufügen, z.B. x4_ls = [35.0, 32.0]. Gibt es eine Möglichkeit, dem Spark-Datenrahmen eine neue Spalte hinzuzufügen? (note, die ich benutze Spark-2.1)

Ausgabe sollte so etwas wie:

## +---+---+-----+----+ 
## | x1| x2| x3| x4| 
## +---+---+-----+----+ 
## | 1| a| 23.0|35.0| 
## | 3| B|-23.0|32.0| 
## +---+---+-----+----+

ich auch meine Liste umwandeln kann df_x4 = spark.createDataFrame([Row(**{'x4': x}) for x in x4_ls]) zu Datenrahmen (aber ich weiß nicht, wie Datenrahmen verketten zusammen)

Quelle

2017-02-15 titipata

Dank Gaurav Dhama für eine große Antwort! Ich habe mit seiner Lösung ein paar Veränderungen vorgenommen. Hier ist meine Lösung, die zwei Datenrahmen zusammen an der neuen Spalte row_num verbindet.

from pyspark.sql import Row 

def flatten_row(r): 
    r_ = r.features.asDict() 
    r_.update({'row_num': r.row_num}) 
    return Row(**r_) 

def add_row_num(df): 
    df_row_num = df.rdd.zipWithIndex().toDF(['features', 'row_num']) 
    df_out = df_row_num.rdd.map(lambda x : flatten_row(x)).toDF() 
    return df_out 

df = add_row_num(df) 
df_x4 = add_row_num(df_x4) 
df_concat = df.join(df_x4, on='row_num').drop('row_num')

Quelle

2017-02-15 20:02:28 titipata

Scheint, als gäbe es keine einfache Möglichkeit, Datenrahmen zu verketten oder Werte zu Dataframe jetzt hinzuzufügen. – titipata

Wir können auf der Grundlage von Zeilennummern wie folgt verketten. Angenommen, wir haben zwei Datenrahmen df und df_x4:

def addrownum(df): 
    dff = df.rdd.zipWithIndex().toDF(['features','rownum']) 
    odf = dff.map(lambda x : tuple(x.features)+tuple([x.rownum])).toDF(df.columns+['rownum']) 
    return odf 

df1 = addrownum(df) 
df2 = addrownum(df_x4) 

outputdf = df1.join(df2,df1.rownum==df2.rownum).drop(df1.rownum).drop(df2.rownum) 

## outputdf 
## +---+---+-----+----+ 
## | x1| x2| x3| x4| 
## +---+---+-----+----+ 
## | 1| a| 23.0|35.0| 
## | 3| B|-23.0|32.0| 
## +---+---+-----+----+

outputdf ist Ihre gewünschte Ausgabedatenrahmen

Quelle

2017-02-15 18:08:30

PySpark fügt dem Datenframe neue Spalte mit neuer Liste hinzu

Antwort

Verwandte Themen