2016-04-14 13 views
0

Ich versuche, SVMLight zu verwenden, um einen Klassifikator zu erstellen, um zu erkennen, ob eine Noun Phrase (NP) anaphorisch ist oder nicht. Ich habe meine Funktionen, aber ich bin fest daran, das Format der Eingabedatei zu verstehen, sollte ich all meinen Text in dieses Format übersetzen oder ich gebe nur den NP ein, der eine positive Instanz und eine negative Instanz darstellt. Und gibt es eine Software, mit der ich meine Datei in dieses Format übersetzen kann?SVMLight: Wie kann ich einen Klassifikator erstellen?

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info> 
<target> .=. +1 | -1 | 0 | <float> //for positive instance should I put +1 
<feature> .=. <integer> | "qid" //should I do this line for all my feature 
<value> .=. <float> 
<info> .=. <string> //Should this contain the NP 

Auch für die Modelldatei, was sollte diese Datei genau enthalten?

Ihre Hilfe würde sehr geschätzt werden.

Antwort

0

der offizielle Dokumentation für die Nutzung von SVMlight Cornell Zitiert, hier ist ein Beispiel für das Eingabeformat:

-1 1: 0,43 3: 0,12 9284: 0,2

Soweit was ich verstanden habe, bedeutet dies, dass in einem Dokument mit "Features" (sagen NP in Ihrem Fall) die obige Zeile den negativen Fall mit Feature1 mit einem Gewicht von 0,43, dritte Feature mit einem Gewicht von 0,12, 9284. Feature mit 0,2 Wert darstellt und alle anderen Funktionen haben einen Wert von 0.

Über die Software oder einen Quellcode oder eine Bibliothek, um diese Art von Format zu generieren - das ist, was ich auch suche und daher kann ich es nicht für Sie beantworten. Aber ich hoffe, dass Sie sich über die Erklärung des Formats im Klaren sind.

+0

auch verweisen: [link] http://stackoverflow.com/a/37589726 – Nandadeep

Verwandte Themen