Binarisierung ist der Akt der Umwandlung von bunten Merkmalen einer Entität in Vektoren von Zahlen, meistens binäre Vektoren, um gute Beispiele für Klassifikatoralgorithmen zu bilden.Binarisierung in natürlicher Sprachverarbeitung
Wenn wir den Satz "Die Katze fraßen den Hund" digitalisieren, könnten wir damit beginnen, jedem Wort eine ID zuzuordnen (zum Beispiel Katze-1, Katze-2, Katze-3, Hund-4) und dann einfach Ersetzen Sie das Wort durch seine ID mit dem Vektor < 3,1,2,3,4>.
Mit diesen IDs könnten wir auch einen binären Vektor erzeugen, indem wir jedem Wort vier mögliche Slots geben und den Slot für ein bestimmtes Wort auf eins setzen, was den Vektor < 0,0,1,0,1,0 ergibt , 0,0,0,1,0,0,0,0,0,1>. Die letztere Methode wird, soweit ich weiß, allgemein als Bag-of-words-Methode bezeichnet.
Nun meine Frage, was sind die beste Digitalisierungsverfahren, wenn es Funktionen für die Verarbeitung natürlicher Sprache im Allgemeinen beschreiben kommt, und Transition-basierte Abhängigkeit (mit Nivres Algorithmus) insbesondere Parsen?
In diesem Zusammenhang wollen wir nicht den ganzen Satz kodieren, sondern den aktuellen Zustand der Analyse, zum Beispiel das oberste Wort auf dem Stapel und das erste Wort in der Eingabewarteschlange. Da die Reihenfolge sehr wichtig ist, schließt dies die Bag-of-words-Methode aus.
Mit besten, ich beziehe mich auf die Methode, die die Daten des meisten verständlich für den Klassifikator macht, ohne unnötigen Speicher zu verbrauchen. Zum Beispiel möchte ich nicht, dass ein Wort Bigramm 400 Millionen Features für 20000 einzelne Wörter verwendet, wenn nur 2% der Bigramme tatsächlich existieren.
Da die Antwort auch vom jeweiligen Klassifikator abhängt, interessiere ich mich vor allem für maximale Entropiemodelle (liblinear), Support Vector Machines (libsvm) und Perceptrons, aber auch Antworten auf andere Modelle sind willkommen.
Ich weiß nicht, was Binarisierung ist, und ich bin mir sicher, dass viele andere Leute im selben Boot sind, also wäre es schön, wenn Sie erklären könnten, was Sie für diejenigen von uns bedeuten, die NLP nicht kennen (wenn nicht, um uns zu helfen, zumindest um das Thema zu verstehen). –
Das gleiche hier - können Sie bitte Binarisierung definieren? –
Vielleicht könnten Sie definieren, was Sie mit "am besten", d. H. Am effizientesten, am effizientesten, am beschreibendsten meinen. – scotta