Wie sollte ich Datum Zeit Parsing mit Spark 2.0 Dataset API richtig durchführen?Spark DataSet Datum Zeit Parsing
Es gibt viele Proben für Datenrahmen/RDD wie
- Spark date parsing
- Better way to convert a string field into timestamp in Spark
- How to change the column type from String to Date in DataFrames?
eine Klasse wie
case class MyClass(myField:java.sql.Datetime)
val mynewDf = spark.read
.option("header", "true")
.option("inferSchema", "true")
.option("charset", "UTF-8")
.option("delimiter", ",")
.csv("pathToFile.csv")
.as[MyClass]
Ist nicht genug, um den Typ zu werfen. Wie soll ich das mit der Datensatz-API richtig machen?
bearbeiten
das Laden der Daten funktioniert. Z.B. ein print schema
zeigt myDateFiled: timestamp (nullable = true)
Aber ein myDf.show führt zu einer
java.lang.IllegalArgumentException
at java.sql.Date.valueOf(Date.java:143)
, die mich führen zu glauben, dass meine Analyse der Daten falsch war. Wie kann das sein?
Entschuldigung, es ist mir nicht wirklich klar, was Sie hier erreichen wollen und was Ihr Problem ist. Können Sie uns ein Beispiel der Eingabedatei zeigen und ein bisschen Ihre Frage aufführen? – cheseaux
Wahrscheinlich sollte umformuliert werden: wie man eine explizite Umwandlung für Datensätze durchführt. –
@cheseaux Bitte beachten Sie auch die Klarstellung in der neuesten Bearbeitung –