Ich versuche, eine CSV-Datei mit diesem Schema zu konvertieren:PySpark Schema nicht erkannt
sch = StructType([
StructField("id", StringType(), True),
StructField("words", ArrayType((StringType())), True)
])
dataFile = 'mycsv.csv'
df = sqlContext.read.option("mode", "DROPMALFORMED").schema(sch).option("delimiter", format(",")).option("charset", "UTF-8").load(dataFile, format='com.databricks.spark.csv', header='true', inferSchema='false')
mycsv.csv enthält:
id , words
a , test here
I df [Row(id='a', words=['test' , 'here'])]
enthalten erwarten aber stattdessen ist es ein leeres Array, wie df.collect()
zurückgibt []
Ist mein Schema korrekt definiert?