0
Wie https://github.com/databricks/spark-csv erwähnt, ich auch csv lesennur ersten paar Zeilen oder Header in SqlContext Lesen
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')
bin Gibt es eine Möglichkeit, nur die Kopfzeile oder nur ersten Zeilen zu lesen. Grundsätzlich möchte ich nur überprüfen, ob eine bestimmte Spalte im Datenrahmen vorhanden ist oder nicht?
Wenn wir den Datenrahmen aus dem CSV laden, also den Schritt: df = sqlContext.read.format ('com.databricks.spark.csv'). Optionen (header = 'true', inferschema = 'true'). load ('cars.csv') Wird es die gesamten Daten in den Speicher laden? –