2017-11-09 1 views
0

Ich habe ein Problem mit Pyspark: wenn ich mein Dataset mit Pyspark importiere, werden alle meine Spalten als eine Zeichenkette betrachtet, selbst wenn meine Spalten numerisch sind.Importieren von Daten mit Pyspark: Falscher Datentyp

Ich habe dieses Problem nicht, wenn ich Daten mit Pandas importiere.

Ich benutze tatsächlich eine Plattform zu Devlop: Dataiku. die Daten sind bereits auf der Plattform und ich importieren sie mit diesem Code:

# Example: Read the descriptor of a Dataiku dataset 
mydataset = 
dataiku.Dataset("Extracts___Retail_Master_Data___Product_Hierarchy_HDFS") 
# And read it as a Spark dataframe 
df = dkuspark.get_dataframe(sqlContext, mydataset) 

ich nicht einen Weg finden, kann meine Daten in das richtige Format zu importieren.

Danke.

+1

Bitte einen Code teilen, zusammen mit Beispieldaten; es gibt mehr als eine Möglichkeit zum "Importieren" von Daten in Spark (als RDD? als Datenframe? als Datensatz? ...), und es ist völlig unklar, welche Sie versuchen zu verwenden ... – desertnaut

+0

Danke für Ihren Kommentar, ich bearbeitete meine Frage –

+1

Danke, aber ich bat um einige * Beispieldaten * auch; eine 'df.show (5)' vielleicht? – desertnaut

Antwort

1

In Dateiku gibt es 2 Konzepte: ein Speichertyp und eine Bedeutung. Also, wenn Sie Ihre Daten-Set erkunden werden Sie beide unter jeder Spaltenname (Typ in grau, blau Bedeutung) siehe

enter image description here

Eine Bedeutung ein Typ ist, der Dataiku passt die beste denkt nach, was in dieser Spalte gespeichert.

In Ihrem Fall sollten Sie mit Ihrem Extracts___Retail_Master_Data___Product_Hierarchy_HDFS gehen Dataset Einstellungen ->Schema ->gesetzt korrekte Spaltentypen ->speichern.

Wenn Sie möchten, um mehr zu bekommen gibt es eine doc Seite

https://doc.dataiku.com/dss/latest/schemas/index.html

Verwandte Themen