Ich habe einen Datenrahmen, die ich verarbeitet worden zu sein wie:Hinzufügen eines Wertes in einem DenseVector in PySpark
+---------+-------+
| inputs | temp |
+---------+-------+
| [1,0,0] | 12 |
+---------+-------+
| [0,1,0] | 10 |
+---------+-------+
...
inputs
ist eine Spalte von DenseVectors. temp
ist eine Spalte von Werten. Ich möchte den DenseVector mit diesen Werten anfügen und eine Spalte erstellen, aber ich bin nicht sicher, wie ich anfangen soll. Irgendwelche Tipps für diese gewünschte Ausgabe:
+---------------+
| inputsMerged |
+---------------+
| [1,0,0,12] |
+---------------+
| [0,1,0,10] |
+---------------+
...
EDIT: Ich versuche, die VectorAssembler
Methode zu verwenden, aber meine resultierende Array wird nicht wie beabsichtigt.
Wie möchten Sie die Werte anhängen? Etwas wie "[1,0,0,12], [0,1,0,10]"? – Psidom
Yup - Ich werde das für Klarheit bearbeiten, aber so würde ich sie mögen. – Kam