Ich versuche, die Dimensionalität einer sehr großen Matrix mit PCA in Sklearn zu reduzieren, aber es erzeugt einen Speicherfehler (RAM erforderlich übersteigt 128 GB). Ich habe bereits copy = False gesetzt und verwende die weniger rechenintensive randomisierte PCA.PCA Speicherfehler in Sklearn: Alternative Dim Reduction?
Gibt es eine Problemumgehung? Wenn nicht, welche anderen Dim-Reduktionstechniken könnte ich verwenden, die weniger Speicher benötigen. Vielen Dank.
Update: Die Matrix, die ich auf PCA versuche, ist eine Reihe von Feature-Vektoren. Es kommt von der Weitergabe einer Reihe von Trainingsbildern durch ein vortrainiertes CNN. Die Matrix ist [300000, 51200]. PCA-Komponenten versucht: 100 bis 500.
Ich möchte seine Dimensionalität reduzieren, damit ich diese Funktionen verwenden kann, um eine ML-Algo wie XGBoost zu trainieren. Vielen Dank.
Das bin ich von der [XY Problem] denken lässt (https: //meta.stackexchange .com/a/66378/311624). Warum möchten Sie die Dimensionalität reduzieren? Was versuchst du mit dieser Matrix zu erreichen? Ist es eine dichte Matrix? – iled
Bitte geben Sie weitere Informationen: wie viele Komponenten verwenden Sie, wie groß ist Ihre Eingabe-Dataset-Größe usw. – rth
Sie könnten eine Art Feature-Reduktions-Technik ausprobieren, um redundante/nicht informative Features aus dem Set zu entfernen. – ralston