nur ersten paar Zeilen oder Header in SqlContext Lesen

Wie https://github.com/databricks/spark-csv erwähnt, ich auch csv lesennur ersten paar Zeilen oder Header in SqlContext Lesen

from pyspark.sql import SQLContext 
sqlContext = SQLContext(sc) 

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')

bin Gibt es eine Möglichkeit, nur die Kopfzeile oder nur ersten Zeilen zu lesen. Grundsätzlich möchte ich nur überprüfen, ob eine bestimmte Spalte im Datenrahmen vorhanden ist oder nicht?

Quelle

2017-03-06 Kaushik Acharya

Wenn wir den Datenrahmen aus dem CSV laden, also den Schritt: df = sqlContext.read.format ('com.databricks.spark.csv'). Optionen (header = 'true', inferschema = 'true'). load ('cars.csv') Wird es die gesamten Daten in den Speicher laden? –

Wenn die Header-Option auf true gesetzt ist, dann können Sie verwenden:

df.first()

Auf diese Weise wird es die Kopfzeile zurück.

Quelle

2017-03-06 10:13:40 Federico

nur ersten paar Zeilen oder Header in SqlContext Lesen

Antwort

Verwandte Themen