2012-10-14 12 views
6

Ich muss horizontale Markovization (NLP-Konzept) implementieren und ich habe ein wenig Probleme zu verstehen, wie die Bäume aussehen werden. Ich habe die Klein and Manning paper gelesen, aber sie erklären nicht, wie die Bäume mit horizontaler Markovization der Ordnung 2 oder Ordnung 3 aussehen werden. Könnte jemand etwas Licht auf den Algorithmus werfen und wie sollen die Bäume aussehen? Ich bin relativ neu in NLP.Horizontale Markovization

Antwort

10

So lassen Sie uns sagen, dass Sie eine Reihe von flachen Regeln wie:

NP 
    NNP 
    NNP 
    NNP 
    NNP 

oder

VP 
    V 
    Det 
    NP 

Wenn Sie diese Binarisierung Sie den Kontext halten wollen (dh dies nicht der Fall ist nur ein Det, aber speziell ein Det, der einem Verb als Teil eines VP folgt). Um dies zu tun normalerweise verwenden Sie Anmerkungen wie folgt aus:

NP 
    NNP 
    NP->NNP 
     NNP 
     NP->NNP->NNP 
      NNP 
      NP->NNP->NNP->NNP 
       NNP 

oder

VP 
    V 
    VP->V 
     Det 
     VP->V->Det 
      NP 

Sie Notwendigkeit zu digitalisieren, um den Baum, aber diese Anmerkungen sind nicht immer sehr aussagekräftig. Sie mögen für das Beispiel des Verb-Satzes etwas bedeutungsvoll sein, aber alles, was Sie wirklich für den anderen interessieren, ist, dass eine Nominalphrase eine ziemlich lange Folge von Eigennamen sein kann (zB "Peter B. Lewis Building" oder "Hope Memorial Bridge Project") Jahrestag"). Mit der horizontalen Markovierung werden Sie also einige der Anmerkungen ein wenig ausblenden und einen Teil des Kontextes wegwerfen. Die Reihenfolge der Markovization ist die Menge des Kontextes, den Sie beibehalten werden. Bei den normalen Annotationen sind Sie also grundsätzlich in unendlicher Reihenfolge: Wählen Sie, um den gesamten Kontext beizubehalten und nichts zu reduzieren.

Order 0 bedeutet, Sie gehen alle Rahmen fallen und Sie erhalten einen Baum ohne die Phantasie Anmerkungen, wie folgt aus:

NP 
    NNP 
    NNP 
     NNP 
     NNP 
      NNP 
      NNP 
       NNP 

Bestellen 1 bedeutet, dass Sie nur einen Begriff von Kontext behalten und Sie bekommen ein Baum wie folgt aus:

NP 
    NNP 
    NP->...NNP **one term: NP->** 
     NNP 
     NP->...NNP **one term: NP->** 
      NNP 
      NP->...NNP **one term: NP->** 
       NNP 

Order 2 bedeutet, dass Sie zwei Sachen Kontext beibehalten werden und Sie erhalten einen Baum wie folgt aus:

NP 
    NNP 
    NP->NNP **two terms: NP->NNP** 
     NNP 
     NP->NNP->...NNP **two terms: NP->NNP->** 
      NNP 
      NP->NNP->...NNP **two terms: NP->NNP->** 
       NNP 
+1

Ihr h = 0 ist falsch. – user3639557

+0

Fühlen Sie sich frei, eine andere Antwort zu geben. – FoolishSeth

0

Ich glaube, die Idee ist Elternknoten für vertikale Markovization und Geschwisterknoten für horizontale zu berücksichtigen, wenn Regelwahrscheinlichkeiten geschätzt werden, und die Reihenfolge gibt an, wie viele von ihnen enthalten sind. Es gibt ein schönes Bild für die Eltern Annotation here.

Auch ein Zitat von http://www.timothytliu.com/files/NLPAssignment5.pdf:

Lexikalisierung zu nähern, wird weitere Informationen auf die Knoten jeden Baum Eltern hinzugefügt. Diese unterscheidet korrekt zwischen verschiedenen Anhängen und ob sie nach links verzweigen oder nicht. Horizontale Markovisierung wird durchgeführt, indem Geschwister verfolgt werden, während der Baum binarisiert wird. Die vertikale Markovisierung wird durch durchgeführt, wobei die Eltern des Knotens im Baum verfolgt werden. Diese erzeugen neue Abhängigkeiten, da jetzt die Regeln eine Kombination aus Tiefe und Breite sind.