Gibt es einen Weg in Python 2.7 mit NLTK
, um nur das Wort zu bekommen und nicht die zusätzliche Formatierung, die "synset"
und die Klammern und die "n.01"
usw. enthält?Wie drucke ich nur das Wort selbst in einem WordNet-Synset mit Python NLTK?
Zum Beispiel, wenn ich
wn.synsets('dog')
Meine Ergebnisse wie folgt aussehen:
[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01'), Synset('chase.v.01')]
Wie kann ich stattdessen eine Liste wie diese erhalten?
dog
frump
cad
frank
pawl
andiron
chase
Gibt es eine Möglichkeit, dies NLTK
mit tun oder muss ich regular expressions
benutzen? Kann ich regular expressions
in einem Python-Skript verwenden?
gemäß Regel 'enthält„Synset“und die Klammern und die„n.01“' '' frank' und chase' nicht Teil sein sollte die gewünschte Ausgabe? – Braj
nicht verwandt mit der Frage, aber "frank" ist ein Synonym für "frankfurter", das ein Synonym für "Hot Dog" oder "Hund" ist. In ähnlicher Weise bedeutet "Hund" wie ein Verb "jagen". – aelfric5578
Ich sehe einen leicht ironischen Fehler, um ironische Farbtöne zu treffen ... – JonathanHayward