Ich habe Sammlung col
dieSpark2 mongodb Anschluss polymorphen Schema
{
'_id': ObjectId(...)
'type': "a"
'f1': data1
}
auf derselben Sammlung enthält ich habe
{
'_id': ObjectId(...)
'f2': 222.234
'type': "b"
}
Spark MongoDB connector Ist das nicht fein arbeiten. Es sind die Daten in falsche Felder
beispielsweise neu anordnen:
{
'_id': ObjectId(...)
'type': "a"
'f1': data1
}
{
'_id': ObjectId(...)
'f1': data2
'type': "a"
}
Rdd wird:
------------------------
| id | f1 | type |
------------------------
| .... | a | data1 |
| .... | data2 | a |
------------------------
Gibt es irgendwelche Vorschläge mit polymorphen Schema arbeiten
Aggregation ist eine gute Idee. Ich dachte, in 'PySpark' mit' pyMongo' zu verwenden und 'rdd' mit map-table process zu erstellen – YeKo