Ich werde eine große Matrix (Datenrahmen) in R erzeugen, deren Größe ungefähr 1300000 * 10000, ungefähr 50 GB ist. Ich möchte diese Matrix in einem geeigneten Format speichern, damit ich später die Daten in Python oder andere Programmcodes eingeben kann, um eine Analyse durchzuführen. Natürlich kann ich die Daten nicht einmal füttern, also muss ich die Matrix unterteilen und sie nach und nach füttern. Aber ich weiß nicht, wie man die Matrix speichert. Ich denke an zwei Möglichkeiten, aber ich denke, weder ist angemessen: (1) Klartext (einschließlich CSV oder Excel-Tabelle), weil es sehr schwierig ist, Teilmenge (zB wenn ich nur einige Spalten und einige Zeilen der Daten wollen) (2) Datenbank, Ich habe Informationen über MySQL und SQLite durchsucht, aber es scheint, dass die Anzahl der Spalten in SQL-Datenbank (1024) begrenzt ist. Also ich möchte nur wissen, ob es gute Strategien zum Speichern der Daten gibt, so dass ich die Daten nach Zeilen/Spalten-Indizes oder Namen unterteilen kann.Wie man große Matrix (Datenrahmen) speichert, die später leicht subsettiert werden kann
0
A
Antwort
0
Haben Sie separate Spalten für jede der wenigen Spalten, nach denen Sie suchen/filtern müssen. Fügen Sie dann die gesamten 10 KB-Spalten in ein Datenformat ein, das für den zu analysierenden Client-Code geeignet ist. JSON ist eine übliche Möglichkeit.
So ist die Tabelle würden 1.3M Reihen und vielleicht drei Spalten: ein id
(auto_increment, Primärschlüssel), die Spalte Suche auf, und die JSON blob - als Datentyp JSON
oder TEXT
(je nach Software-Version) für die viele Daten Werte.
Verwandte Themen
- 1. Wie man große Zahlen speichert?
- 2. Wie speichert man große Ergebnisse R?
- 3. Wie man große Matrix zu Datei in Spark prüft oder speichert
- 4. Wie geht man mit tibbles um, wenn man die Dataframe-Spalte in R subsettiert/indexiert?
- 5. Wie speichert man eine Linq-Abfrage und verwendet sie später?
- 6. Wie man große Leerzeichen in Datenrahmen aufräumen?
- 7. Wie kann man Tkinter-Einfrieren leicht vermeiden?
- 8. Wie wird ein Datenrahmen von einem anderen Datenrahmen mit unterschiedlicher Länge subsettiert?
- 9. optimize Funktion, die große Matrix-Operationen umfasst
- 10. Wie speichert man eine große Fließkommazahl in Python-Variablen?
- 11. Wie speichert man große Daten in der Chrome-Erweiterung?
- 12. Liste/Matrix speichert nicht die korrekten Werte
- 13. Warum kann Haskell sehr große Zahlen leicht handhaben?
- 14. Wie man Baumaggregate speichert
- 15. Große Matrix Inversion
- 16. Wie kann man die jQuery-Animation anhalten und später fortsetzen?
- 17. Wie speichert man Bilder, die im Webview angezeigt werden?
- 18. wie man Datenbankpasswort speichert
- 19. Wie speichert man einen Tensorflow-Schätzer nach export_savedmodel, lädt ihn und lädt ihn später lokal?
- 20. Python Tkinter Eintrag speichert Variablen für später
- 21. Wie man numpy Objekte (Matrizen) schnell speichert?
- 22. rpy2 - wie man Datenrahmen als RData-Datei auf Platte speichert?
- 23. Wie man einen Datenrahmen mit seinem Kopf als Text speichert?
- 24. Wie erstellt man eine große Matrix von Matrizen in Python?
- 25. Wie man eine sehr große Matrix mit Matlab erstellt
- 26. Spark mehrere Datenrahmen speichert
- 27. Bilder werden sehr leicht
- 28. Fiddler kann Antworten leicht entschlüsseln - wie man das automatisch macht?
- 29. Wie man leicht erkennt, ob Ninject eine Klasse auflösen kann
- 30. Spark: Wie speichert man einen Datenrahmen mit Kopfzeilen?
niemand weiß? –
Müssen Sie nach einer der 10K-Spalten suchen? Oder nur ein paar von ihnen? –
Nun, eigentlich muss ich jetzt nur noch nach einer Spalte suchen: jede Zeile hat einen rowname und ich muss nur nach rowname/columnname unterteilen –