2017-05-09 2 views
0

Ich arbeite gerade an einer Reihe von reportgestylten Dokumenten, von denen ich Informationen extrahieren möchte. Im Moment versuche ich, den Textkörper in kleinere Bestandteile zu unterteilen, für die individuelle Klassifizierung (welche Art von Information erwarten wir in der Phrase). Aufgrund der ungenauen Grammatik, in der die Berichte geschrieben werden, findet ein Standard-Wahlkreis-Parser keine gemeinsame Wurzel für die Sätze. Dies ruft offensichtlich nach Abhängigkeitsanalyse. Ich war jedoch interessiert, ob es Wahlkreisparser geben würde, die nicht auf eine vollständige Analyse des Satzes abzielen. Etwas an der Linie des probabilistischen CKY, das versucht, die wahrscheinlichsten Unterknoten zurückzugeben. Ich arbeite derzeit im Python Nltk-Framework, aber auch Java-Lösungen wären in Ordnung.Gibt es Wahlkreis-Parser, die nicht auf eine vollständige Analyse abzielen?

Antwort

2

Klingt, als ob Sie nach "oberflächlichen Parsing" oder "Chunking" suchen. Ein Chunker könnte nur NPs in Ihrem Text identifizieren, oder nur NPs und VPs, etc. Ich glaube nicht, dass der Nltk eine gebrauchsfertige Version bietet, aber es ist ziemlich einfach, Ihre eigenen zu trainieren. Chapter 7 des Nltk-Buches enthält detaillierte Anweisungen zum Erstellen oder Trainieren verschiedener Arten von Chunkern. Die Chunks können sogar geschachtelt werden, wenn Sie ein bisschen hierarchische Struktur möchten.

Verwandte Themen