Ich arbeite derzeit an Data Science Experience und möchte eine CSV-Datei als SparkSession DataFrame importieren. Ich bin in der Lage, den DataFrame erfolgreich zu importieren, jedoch werden alle Spaltenattribute in Zeichenfolientyp konvertiert. Wie lässt diese DSX-Funktion die in der CSV-Datei vorhandenen Typen erkennen?Ein SparkSession DataFrame auf DSX importieren
0
A
Antwort
1
Derzeit ist der generierte Code für die eigentliche Erstellung des pyspark.sql.DataFrame
sieht wie folgt aus:
df_data_1 = spark.read\
.format('org.apache.spark.sql.execution.datasources.csv.CSVFileFormat')\
.option('header', 'true')\
.load('swift://container_name.' + name + '/test.csv')
df_data_1.take(5)
Sie haben die folgenden Optionen hinzufügen, dann wird das Schema abgeleitet werden:
.option(inferschema='true')\
Verwandte Themen
- 1. "kann nicht importieren Namen SparkSession"
- 2. Konvertieren Datensatz von JSON-Zeilen in Dataframe mit SparkSession
- 3. SparkSession global anzeigen
- 4. Importfehler für SparkSession in Pyspark
- 5. DSX: Einfügen zum Codelink fehlt
- 6. Spark Prozessverlauf Protokolle Bluemix (DSX)
- 7. DSX Python-Importfehler: undefiniertes Symbol: PyUnicodeUCS2_AsUTF8String
- 8. DSX: So erstellen Sie eine Verbindung für den Bluemix-Objektspeicher in DSX
- 9. Kann auf DataFrame von verschiedenen SparkSessions zugegriffen werden?
- 10. DSX-Desktop auf dem Mac - Beispiel Scala Skript nicht
- 11. Logischer Plan zu DataFrame/Dataset Apache spark
- 12. Wie wird SparkSession in Multiuser-Projekten freigegeben?
- 13. Ein fehlerhafter DataFrame-Schnitt?
- 14. Importieren Pandas Dataframe Spalte als Zeichenfolge nicht Int oder Float
- 15. com.cloudant.spark Datenquelle nicht in DSX Notebook
- 16. Was passiert, wenn SparkSession nicht geschlossen ist?
- 17. Ich erhalte IllegalArgumentException beim Erstellen einer SparkSession
- 18. Spalten beim Importieren von CSV in Python Dataframe ausschließen
- 19. sparkSession/sparkContext kann nicht Hadoop-Konfiguration
- 20. Spark - Sollte SparkSession nur eins sein?
- 21. 'SparkSession' Objekt hat kein Attribut 'sparkContext'
- 22. parallelize() -Methode bei SparkSession in Spark 2.0
- 23. Unterschied zwischen sparkContext JavaSparkContext SQLContext SparkSession?
- 24. FPgrowth auf einem Dataframe?
- 25. Abfrage auf Pandas Dataframe
- 26. Dataframe Titel auf to_csv
- 27. Convert Java ResultSet in Spark DataFrame
- 28. Große Abfrage oder mutieren Dataframe?
- 29. Pandas: Update eine Dataframe-Serie basierend auf einem größeren Dataframe
- 30. Beliebig viele Filter auf Dataframe