Ich habe ein Problem mit Pyspark: wenn ich mein Dataset mit Pyspark importiere, werden alle meine Spalten als eine Zeichenkette betrachtet, selbst wenn meine Spalten numerisch sind.Importieren von Daten mit Pyspark: Falscher Datentyp
Ich habe dieses Problem nicht, wenn ich Daten mit Pandas importiere.
Ich benutze tatsächlich eine Plattform zu Devlop: Dataiku. die Daten sind bereits auf der Plattform und ich importieren sie mit diesem Code:
# Example: Read the descriptor of a Dataiku dataset
mydataset =
dataiku.Dataset("Extracts___Retail_Master_Data___Product_Hierarchy_HDFS")
# And read it as a Spark dataframe
df = dkuspark.get_dataframe(sqlContext, mydataset)
ich nicht einen Weg finden, kann meine Daten in das richtige Format zu importieren.
Danke.
Bitte einen Code teilen, zusammen mit Beispieldaten; es gibt mehr als eine Möglichkeit zum "Importieren" von Daten in Spark (als RDD? als Datenframe? als Datensatz? ...), und es ist völlig unklar, welche Sie versuchen zu verwenden ... – desertnaut
Danke für Ihren Kommentar, ich bearbeitete meine Frage –
Danke, aber ich bat um einige * Beispieldaten * auch; eine 'df.show (5)' vielleicht? – desertnaut