2017-03-06 4 views
0

Wie https://github.com/databricks/spark-csv erwähnt, ich auch csv lesennur ersten paar Zeilen oder Header in SqlContext Lesen

from pyspark.sql import SQLContext 
sqlContext = SQLContext(sc) 

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv') 

bin Gibt es eine Möglichkeit, nur die Kopfzeile oder nur ersten Zeilen zu lesen. Grundsätzlich möchte ich nur überprüfen, ob eine bestimmte Spalte im Datenrahmen vorhanden ist oder nicht?

+0

Wenn wir den Datenrahmen aus dem CSV laden, also den Schritt: df = sqlContext.read.format ('com.databricks.spark.csv'). Optionen (header = 'true', inferschema = 'true'). load ('cars.csv') Wird es die gesamten Daten in den Speicher laden? –

Antwort

0

Wenn die Header-Option auf true gesetzt ist, dann können Sie verwenden:

df.first()

Auf diese Weise wird es die Kopfzeile zurück.

Verwandte Themen