Ich versuche, Absätze basierend auf ihren Gefühlen zu klassifizieren. Ich habe Trainingsdaten von 600.000 Dokumenten. Wenn ich sie in Tf-Idf
Vektorraum mit Worten als Analysator und Ngram-Bereich als 1-2 konvertieren, gibt es fast 6 Millionen Features. Also muss ich Singular Value Decomposition (SVD) durchführen, um Features zu reduzieren.SVD mit Scikit-Learn und Gensim mit 6 Millionen Funktionen
Ich habe versucht, Gensim und SVD-Funktion von Sklearn. Beide funktionieren gut für die Feature-Reduzierung bis 100, aber sobald ich für 200 Features versuche, werfen sie einen Speicherfehler.
Auch ich habe nicht das gesamte Dokument (600 Tausend) als Trainingsdaten verwendet, ich habe nur 50000 Dokumente genommen. Also im Wesentlichen meine Trainingsmatrix ist: 50000 * 6 Millionen und wollen es auf 50000 * (100 bis 500) reduzieren
Gibt es einen anderen Weg, ich kann es in Python implementieren, oder muss ich Sparks mllib SVD implementieren (nur für Java und Scala geschrieben)? Wenn ja, wie viel schneller wird es sein?
Systemspezifikation: 32 Gb RAM mit 4-Core-Prozessoren auf Ubuntu 14.04
Danke für die Vorschläge. Ich sollte mit den Parametern max_df und min_df herumspielen. Auch ich habe noch nicht auf Hashing Vectorizer geschaut, also werde ich sehen, was ich damit machen kann. – dudefrmbgr