Ich importierte Daten von BigQuery auf Pyspark mit dem folgenden Code:RDD Json Dateiverarbeitung
table_data = sc.newAPIHadoopRDD(
'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat',
'org.apache.hadoop.io.LongWritable',
'com.google.gson.JsonObject',
conf=conf)
Der Ausgang ein RDD Rahmen ist, sondern die Daten in einem json-Format:
[(0, u'{"colA":"Value1,Value4"}'), (52, u'{"colA":"Value2"}')]
Ich brauche um alle Werte im RDD-Format zu extrahieren. Ein Hauptanliegen der resultierenden RDD sollte keine doppelten Anführungszeichen für jeden Datensatz enthalten.
erforderlich:
Value1,Value4
Value2
und nicht:
"Value1,Value4"
"Value2"
Können Sie Ihr Ergebnis in einer gültigen Python-Datenstruktur zeigen? Brauchen Sie auch eine andere RDD? – Psidom
Ich brauche eine RDD, da ich MLlib verwenden würde, um einen Algorithmus zu implementieren. – Nivi
Wenn der JSON durch ein "," getrennt ist, ist sein Rückgabetyp bereits "str". Wie würdest du den Typ jedes "Wertes" kennen, wie float, int, str und so weiter? –