Größere Datensätze sind besser; text8
ist sehr, sehr klein - ausreichend, um etwas von der Analogielösungskraft von Wortvektoren zu zeigen, aber nicht gut genug für andere Zwecke.
Weitere Iterationen können dazu beitragen, etwas stärkere Vektoren aus kleineren Datasets herauszuquetschen, aber mit abnehmenden Renditen. (Keine Anzahl von zusätzlichen Iterationen über einen schwachen Datensatz kann die gleichen reichen Zusammenhänge extrahieren, die ein größerer, verschiedenartiger Korpus liefern kann.)
Es gibt eine verwandte text9
aus der gleichen Quelle, die, wenn ich mich richtig erinnere, 10x größer ist. Sie erhalten wahrscheinlich bessere Bewertungsergebnisse, wenn Sie es verwenden, als 10x mehr Iterationen unter text8
.
Ich glaube, die 3 Millionen vortrainierten Vektoren, die Google einmal veröffentlicht hat - das GoogleNews
Set - wurden auf einen Korpus von 100 Milliarden Wörter im Wert von Nachrichtenartikeln trainiert, aber mit nur 3 Durchgängen.
Beachten Sie, dass es keinen einzigen Standard für Wort-Vektor-Qualität gibt: Die questions-words.txt
Analogie-Lösung ist nur eine bequeme Auswertung, aber es ist möglich, dass die besten Wort-Vektoren nicht am besten bei Ihren eigenen domänenspezifischen Analysen sind. Ebenso können Wortvektoren, die auf einer Textdomäne trainiert wurden, wie die GoogleNews
aus Nachrichtenartikeln, im Vergleich zu Texten, die besser zu Ihrer Domain passen (wie Forenbeiträge, wissenschaftliche Artikel usw.), die alle unterschiedliche Wörter verwenden, schlechter abschneiden).
Daher ist es oft am besten, einen eigenen Korpus und eine eigene zielspezifische quantitative Auswertung zu verwenden, um die Korpus-/Parameterauswahl anzupassen.
Danke! Ich werde einen größeren Datensatz versuchen. –
Der größere Datensatz hat die Testgenauigkeit erhöht. Danke auch für die Empfehlung, den Datensatz und die Tests dem Thema anzupassen. –