Ich habe ein Datenfeld in Pyspark, die rund 150 Spalten hat. Diese Spalten ergeben sich aus dem Zusammenfügen verschiedener Tabellen. Nun besteht meine Anforderung darin, den Datenrahmen in eine Datei zu schreiben, aber in einer bestimmten Reihenfolge wie zuerst 1 bis 50 Spalten schreiben, dann Spalte 90 bis 110 und dann Spalte 70 und 72. Das heißt, ich möchte nur bestimmte Spalten auswählen und neu anordnen.wählen Sie zufällige Spalten aus einem sehr großen Datenrahmen in pyspark
Ich kenne einen der Weg ist, df.select zu verwenden ("geben Sie Ihre Spalte Reihenfolge"), aber in meinem Fall sind die Spalten sehr groß und es ist nicht möglich, jeden einzelnen Spaltennamen in 'auswählen ".
Bitte sagen Sie mir, wie ich das in pyspark erreichen kann.
Hinweis- Ich kann keine Beispieldaten bereitstellen, da die Anzahl der Spalten sehr groß ist und die Spaltennummer in meinem Fall der Hauptblockierer ist.
nicht sicher, warum 'df.select (list_of_columns)' ist ein Thema – muon
Df.select ist kein Problem, aber ich möchte das Schreiben mehr als 100 Spalten in vermeiden wählen. Ich suche nach einem Weg, wo ich einen Bereich von Spalten wie 1-50,55 angeben kann und es wählt 50 Spalten und dann 55. Spalte aus. – pam18