2017-10-08 4 views
1

Ich habe eine riesige CSV-Datei, 1.37 GB, und wenn ich meine Glm in R, stürzt es ab, weil ich nicht genügend Speicher zugewiesen haben. Sie wissen, der reguläre Fehler ..Effizienter Weg, um große Daten in R

Gibt es keine Alternative zu den Paketen ff und bigmemory, weil sie nicht gut für mich arbeiten, weil meine Spalten eine Mischung aus ganzen Zahlen und Zeichen sind, und es scheint mit den beiden Pakete Ich muss angeben, welcher Typ meine Spalten sind, entweder Char oder Integer.

Wir sind bald im Jahr 2018 und im Begriff, Leute auf Mars zu setzen; Gibt es keine einfache "read.csv.xxl" -Funktion, die wir verwenden können?

+3

Sie haben nicht 2 GB Arbeitsspeicher auf Ihrem Computer? Vielleicht Zeit für ein Upgrade. – lmo

+0

Ich habe 8 GB, aber die glm-Berechnung stürzt ab. – HeyJane

+0

hat einen der Zeiger in http://www.bnosac.be/index.php/blog/10-bigglm-on-your-big-data-set-in-open-source-r-it-just-works ähnlich wie in sas arbeiten? – hrbrmstr

Antwort

1

Ich würde zuerst Ihre Frage beantworten, indem das Erkennen, nur weil Ihre Beispieldaten nimmt 1,37 GB ist nicht überhaupt bedeuten, dass 1,37 GB zufriedenstellend wäre, alle Ihre Rechnungen mit dem glm Paket zu tun. Höchstwahrscheinlich könnte eine Ihrer Berechnungen mindestens ein Vielfaches von 1,37 GB erreichen.

Für den zweiten Teil wäre ein praktisches Workaround hier, nur eine angemessene Unterprobe Ihres 1.37 GB Datensatzes zu nehmen. Müssen Sie wirklich Ihr Modell mit alle die Datenpunkte im ursprünglichen Datensatz erstellen? Oder, würde eine 10% -Substichprobe Ihnen auch ein statistisch bedeutendes Modell geben? Wenn Sie die Größe des Datensatzes verringern, lösen Sie das Speicherproblem mit R.

Denken Sie daran, dass R vollständig im Speicher ausgeführt wird, dh wenn Sie den verfügbaren Speicher überschritten haben, können Sie Pech haben .

+0

Erster Teil: genau. Zweiter Teil: Ich möchte alle meine Daten verwenden, weil ich ein komplexes Modell erstellen möchte. Und ich muss wissen, wie zuversichtlich ich in meinen Schätzungen bin, also muss ich alle meine Daten verwenden. Daher meine Frage. – HeyJane

+0

@HeyJane Ich bin nicht sicher, dass Sie alle Ihre Daten verwenden müssen. Um dies zu testen, könnten Sie eine 10% -ige Unterabtastung Ihrer Daten verwenden und beschreibende Statistiken dieser Untergruppe mit dem ursprünglichen Datensatz vergleichen. –

+1

Ja, ich muss alle meine Daten verwenden, um zu beurteilen, wie sicher ich von meinen Schätzungen bin. Und ich möchte ein sehr komplexes Modell. Und bei allem Respekt, du adressierst mein Problem nicht. Sie sagen nur "Reduzieren Sie die Daten" – HeyJane

Verwandte Themen