Ich versuche, Pandas DF in Spark one zu konvertieren. DF Kopf:Konvertieren von Pandas Dataframe in Spark Datenframe Fehler
10000001,1,0,1,12:35,OK,10002,1,0,9,f,NA,24,24,0,3,9,0,0,1,1,0,0,4,543
10000001,2,0,1,12:36,OK,10002,1,0,9,f,NA,24,24,0,3,9,2,1,1,3,1,3,2,611
10000002,1,0,4,12:19,PA,10003,1,1,7,f,NA,74,74,0,2,15,2,0,2,3,1,2,2,691
Code:
dataset = pd.read_csv("data/AS/test_v2.csv")
sc = SparkContext(conf=conf)
sqlCtx = SQLContext(sc)
sdf = sqlCtx.createDataFrame(dataset)
Und ich habe einen Fehler:
TypeError: Can not merge type <class 'pyspark.sql.types.StringType'> and <class 'pyspark.sql.types.DoubleType'>
Meine erste Annahme ist, dass die Datei sowohl Zahlen als auch Strings in einer Spalte enthält und Spark darüber verwirrt. Allerdings sollte es beim Importieren von Pandas gehandhabt werden. –
hat Ihr DF Spaltennamen? – MaxU
Ja hat es. Sollte ich sie deaktivieren? –