2017-06-11 2 views
2

Ich plane den Aufbau eines Geschlechtsklassifikators. Ich weiß, dass die zwei populären Modelle tf-idf und word2vec sind. Während sich tf-idf auf die Bedeutung eines Wortes in einem Dokument und die Ähnlichkeit von Dokumenten konzentriert, konzentriert sich word2vec mehr auf die Beziehung zwischen Wörtern und deren Ähnlichkeit.Welche Methode sollte ich verwenden, um Wörter in Funktionen für Machine Learning-Anwendungen zu konvertieren?

Allerdings scheint keines der Themen perfekt für den Aufbau von Vektorfunktionen zu sein, die für die Geschlechterklassifizierung verwendet werden. Gibt es ein anderes alternatives Vektorisierungsmodell, das für diese Aufgabe geeignet ist?

Antwort

2

Ja, es gibt eine andere Alternative zu w2v: GloVe.

Glove steht für Global Vector Embeddings. Als jemand, der diese Technik schon früher gut genutzt hat, würde ich GloVe empfehlen.

GloVe trainiert neuronale Worteinbettungen nicht nur, indem man lokale Fenster betrachtet, sondern berücksichtigt eine viel größere Breite (Größe 30+), wodurch eine viel tiefere Ebene der Semantik in die Einbettung eingebettet wird.

Mit Handschuh, ist es einfach zu Beziehungen wie zum Beispiel: X[man] - X[woman] = X[king] - X[queen], wo diese alle Vektoren sind.

enter image description here

Credits: Handschuh GitHub Seite (unten verlinkt).

Sie können Ihre eigenen GloVe-Einbettungen trainieren, oder Sie können ihre umgeschulten Modelle verwenden. Selbst für bestimmte Domänen scheinen die allgemeinen Modelle einigermaßen gut zu funktionieren, obwohl Sie viel mehr aus Ihren Modellen herausholen würden, wenn Sie sie selbst trainieren würden. Auf der GitHub-Seite finden Sie Anweisungen zum Trainieren Ihrer eigenen Modelle. Es ist sehr leicht.

Zusätzlicher Lesestoff:

+0

Eine Frage. Unterstützt Glove Hindi? Enthält eines der vortrainierten Modelle Hindi-Daten? – Djokester

+1

@Djokester Wenn Sie über Hindi geschrieben in Englisch sprechen, dann glaube ich, dass es das unterstützen wird. Allerdings, tatsächliche Hindi-Skript? Kann ich nicht sagen. Ich habe es noch nie zuvor versucht. Einen Versuch ist es wert. Außerdem gibt es meines Wissens keine vorgefertigten Modelle von Hindi. –

+0

Gibt es ein Python-Paket für GloVe? Ich habe keinen zuverlässigen gefunden. – Djokester

Verwandte Themen