2017-12-13 7 views
0

meine Aufgabe ist es Tags (beschreibende Wörter) zu Dokumenten oder Beiträge aus der Liste der verfügbaren Tags zuweisen. Ich arbeite mit Doc2vec in Gensim. Ich habe gelesen, dass doc2vec für das Dokumenten-Tagging verwendet werden kann. Aber ich konnte die passenden Parameterwerte für diese Aufgabe nicht bekommen. Bis jetzt habe ich es getestet, indem ich den Wert der Parameter 'Größe' und 'Fenster' geändert habe. Die Ergebnisse, die ich erhalte, sind zu Unsinn und auch durch Ändern der Werte dieser Parameter habe ich keinen Trend in Ergebnissen gefunden, d.h. bei einigen Werten wurden die Ergebnisse etwas verbessert und bei einigen Werten fielen die Ergebnisse. Kann jemand vorschlagen, welche Parameterwerte für diese Aufgabe geeignet sein sollten? Ich fand, dass "Größe" (definiert Größe wenn Feature-Vektor) groß sein sollte, wenn wir genug Trainingsdaten haben. Aber über den Rest der Parameter werde ich nicht sicher!Parameterwerte von Doc2vec für Document Tagging - GENSIM

Antwort

0

Welche Parameter sind am besten mit der Qualität & Größe Ihrer Trainingsdaten variieren kann, und genau das, was Ihre Downstream-Ziele sind. (Es gibt keinen Satz von Best-for-Everything-Parametern.)

Starten mit dem Gensim-Standard ist vernünftig erste Schätzung, oder andere Werte, die Sie gesehen haben, jemand anderes erfolgreich auf einem ähnlichen Datensatz/Problem verwendet.

Aber wirklich müssen Sie experimentieren, idealerweise durch Erstellen einer automatisierten Auswertung auf der Grundlage einiger zurückgehaltenen Test-Set, dann Meta-Optimierung der Doc2Vec Parameter durch die Suche über viele kleine Anpassungen der Parameter für die besten Bereiche/Kombinationen .

Verwandte Themen