2011-01-03 5 views
5

Ich lerne NLP. Ich spiele gerade mit Word Sense Disambiguation. Ich plane, den Semacorpus als Trainingsdaten zu verwenden, aber ich habe Probleme, die XML-Struktur zu verstehen. Ich habe versucht zu googeln, aber habe keine Ressource bekommen, die die Inhaltsstruktur von semcor beschreibt.verstehen semcor Korpus Struktur h

<s snum="1"> 
<wf cmd="ignore" pos="DT">The</wf> 
<wf cmd="done" lemma="group" lexsn="1:03:00::" pn="group" pos="NNP" rdf="group" wnsn="1">Fulton_County_Grand_Jury</wf> 
<wf cmd="done" lemma="say" lexsn="2:32:00::" pos="VB" wnsn="1">said</wf> 
<wf cmd="done" lemma="friday" lexsn="1:28:00::" pos="NN" wnsn="1">Friday</wf> 
<wf cmd="ignore" pos="DT">an</wf> 
<wf cmd="done" lemma="investigation" lexsn="1:09:00::" pos="NN" wnsn="1">investigation</wf> 
<wf cmd="ignore" pos="IN">of</wf> 
<wf cmd="done" lemma="atlanta" lexsn="1:15:00::" pos="NN" wnsn="1">Atlanta</wf> 
<wf cmd="ignore" pos="POS">'s</wf> 
<wf cmd="done" lemma="recent" lexsn="5:00:00:past:00" pos="JJ" wnsn="2">recent</wf> 
<wf cmd="done" lemma="primary_election" lexsn="1:04:00::" pos="NN" wnsn="1">primary_election</wf> 
<wf cmd="done" lemma="produce" lexsn="2:39:01::" pos="VB" wnsn="4">produced</wf> 
<punc>``</punc> 
<wf cmd="ignore" pos="DT">no</wf> 
<wf cmd="done" lemma="evidence" lexsn="1:09:00::" pos="NN" wnsn="1">evidence</wf> 
<punc>''</punc> 
<wf cmd="ignore" pos="IN">that</wf> 
<wf cmd="ignore" pos="DT">any</wf> 
<wf cmd="done" lemma="irregularity" lexsn="1:04:00::" pos="NN" wnsn="1">irregularities</wf> 
<wf cmd="done" lemma="take_place" lexsn="2:30:00::" pos="VB" wnsn="1">took_place</wf> 
<punc>.</punc> 
</s> 
  • ich WNSN gehe davon ist 'Wortsinn'. Ist es richtig?
  • Was bedeutet das Attribut lexsn? Wie wird es zu Wordnet zugeordnet?
  • Worauf bezieht sich das Attribut pn? (dritte Zeile)
  • Wie wird das rdf-Attribut zugewiesen? (wieder dritte Zeile)
  • Im Allgemeinen, was sind die möglichen Attribute?

Antwort

10

Das Format wird in der Datei "doc/cxtfile.txt" in der SemCor 1.6 archive beschrieben; Aus irgendeinem Grund ist Dokumentation in späteren Versionen nicht enthalten.

+0

Das wnsn ist vom "Wort verwendet" oder seiner "lemmatisierten Form", weil sie unterschiedlich sein können. – damned