2015-05-13 7 views
8

Ich bin neu zu funken und spielte mit Pysparks.sql. Nach Angaben der pyspark.sql Dokumentation here kann man gehen über den Spark-Datenrahmen und Schema wie diese Einstellung:Syntax beim Festlegen des Schemas für Pypspark.sql mit StructType

rdd = sc.textFile('./some csv_to_play_around.csv' 

schema = StructType([StructField('Name', StringType(), True), 
        StructField('DateTime', TimestampType(), True) 
        StructField('Age', IntegerType(), True)]) 

# create dataframe 
df3 = sqlContext.createDataFrame(rdd, schema) 

Meine Frage ist, was steht die True für in der schema Liste oben? Ich kann es in der Dokumentation nicht finden. Vielen Dank im Voraus

Antwort

10

Es bedeutet, wenn die Spalte Nullwerte, true für nullable erlaubt, und false für nicht nullable

StructField (Name, Datentyp NULL-Werte zulässt): Stellt ein Feld in einem StructType. Der Name eines Feldes wird durch den Namen angezeigt. Der Datentyp eines Felds wird durch dataType angegeben. Nullwert wird verwendet, um anzugeben, ob Werte dieser Felder Nullwerte haben dürfen.

Weitere Informationen finden Sie unter Spark SQL and DataFrame Guide.

Verwandte Themen