2016-07-21 3 views
1

Ich versuche, Machine Learning zu verwenden, um Sätze zu beschriften (jeder Satz mit einer einzelnen Bezeichnung, ich nehme an, dass Sätze unabhängig voneinander sind). Ich dachte, dass lineare CRF-Modell für diesen Fall in Ordnung wäre, aber ich habe einige Fragen.Können CRFs (Conditional Random Fields) zum Beschriften ganzer Sätze verwendet werden?

Ich versuchte mit CRF++ (andere Implementierungen, die ich sah, scheinen analoge Formate zu haben). Es verwendet Sätze als Eingabe, aber das Ausgabe-Label wird jedem Token zugewiesen. Wie benutzt man ein einzelnes Label für den ganzen Satz? (Der Hack ich dachte wäre nur ein signifikantes Label zuweisen in den Testdaten Punkt und es als das Ausgang Label für den ganzen Satz zu behandeln.)

Wie können Sätze von unterschiedlicher Länge eingesetzt werden? In der Trainingskonfiguration muss angegeben werden, welche Token in die -Überlegung übernommen werden, wenn das aktuelle Token analysiert wird. Aber ein Satz kann eine große oder kleine Anzahl von Tokens haben und ich möchte alle Token aus einem Satz (nicht mehr oder weniger) verwenden, um die gesamte Information zu nutzen.

Von this question scheint es, dass was ich versuche zu tun ist (ein einzelnes Label für die gesamte Sequenz), , aber ich weiß nicht, wie Trainingsdaten dafür formatieren.

+0

Teilen Sie den Satz in Token, fügen Sie ihn in eine Zeile und nicht in eine Zeile ein, fügen Sie entsprechende Features und dann die Bezeichnung hinzu. Vielleicht kann es bestimmte Muster finden. – arjun

Antwort

0

Wie Ashemah sagte, vielleicht sind Sie mit dem falschen Werkzeug. CRFs werden typischerweise verwendet, wenn Sie Sequenzen, z. eine Folge von Wörtern oder sogar eine Sequenz von Sätzen. Da Sie jedoch davon ausgehen, dass Ihre Sätze voneinander unabhängig sind, sollten Sie sich jeden einzelnen unabhängig ansehen. Ihre Aufgabe ist daher nicht die Sequenzkennzeichnung, sondern eine einfache Klassifizierung. Dafür können Sie mehrere andere Modelle wie SVM, Naive Bayes, KNN und viele mehr verwenden.

Verwandte Themen