Ich habe ein Dataset bestehend aus 7-8 Felder des Typs String, Int & Float.Spark - Schema programmgesteuert mit verschiedenen Datentypen erstellen
Am versuchen Schema von programmatischen Ansatz zu schaffen, indem diese mit:
val schema = StructType(header.split(",").map(column => StructField(column, StringType, true)))
und Kartierung es dann Typ Zeile wie:
val dataRdd = datafile.filter(x => x!=header).map(x => x.split(",")).map(col => Row(col(0).trim, col(1).toInt, col(2).toFloat, col(3), col(4) ,col(5), col(6), col(7), col(8)))
Aber nach Datenrahmen zu schaffen, wenn ich verwende DF.show () Es gibt Fehler für das Integer-Feld.
So wie solches Schema zu schaffen, in dem wir mehrere Datentypen im Datensatz
Aber die Header String ist nicht so und Daten sind wie 'dfs8768768, 65, 76,34, 234, dfgdg, 34,65 dfs8768768, 65, 76,34, 234, dfgdg, 34,65 ' – AJm
Dann ist es unmöglich, aus dem Header zu wissen die Art der Daten, da sie nicht angegeben ist. – elghoto
Dies ist die genauen Daten mit Kopf: 'Versteigert, bid, Bietzeit, Bieter, bidderrate, openbid, Preis, Artikel, daystolive 8213034715,15,12.373, Baman, 3,12,20, book1,5 8213034725, 65,21,33, thmpu, 2,64,75, watch1,9 8213034735,85,23,3, lovekush, 4,45,90, remote1,10 8213034745,115,44.44, jaipanee, 3,111,130, s3phone, 4' – AJm