2017-11-29 3 views
0

ich eine Datumsspalte in meinem Datenrahmen habe, die Finden total einzigartige Motten mit Jahren in Pyspark Daten Ruhm von Spalte Datum

+----------+ |DateColumn| +----------+ |2016-04-30| |2016-04-01| |2017-09-03| |2017-06-30| |2016-09-01| |2016-09-30| i Gesamt wollen deutliches Jahr Monate in der angegebenen Spalte von datafame zB oben wie

aussieht haben verschiedene Monate, dh

2016-04, 2017-09, 2017-06, 2016-09

ich bin mit pyspark Dataframes ich versuchte

newDF.select(month(newDF['dateColumn']),year(newDF['dateColumn'])).show() 

Aber hier ist das Problem Ausgabe in 2 verschiedenen columns.unable ist, herauszufinden, wie gruppen durch anzuwenden darauf.

P.S: Ich bin etwas neu zu Funken.

Antwort

1

Wir können date_format() verwenden bestimmtes Format zu bekommen,

from pyspark.sql import functions as F 
df = df.withColumn('date_col',F.date_format('date_col','yyy-MM')) 
df.show() 
+--------+ 
|date_col| 
+--------+ 
| 2016-04| 
| 2016-04| 
| 2017-09| 
| 2017-06| 
| 2016-09| 
+--------+ 
Verwandte Themen