Ich arbeite gerade an einer Reihe von reportgestylten Dokumenten, von denen ich Informationen extrahieren möchte. Im Moment versuche ich, den Textkörper in kleinere Bestandteile zu unterteilen, für die individuelle Klassifizierung (welche Art von Information erwarten wir in der Phrase). Aufgrund der ungenauen Grammatik, in der die Berichte geschrieben werden, findet ein Standard-Wahlkreis-Parser keine gemeinsame Wurzel für die Sätze. Dies ruft offensichtlich nach Abhängigkeitsanalyse. Ich war jedoch interessiert, ob es Wahlkreisparser geben würde, die nicht auf eine vollständige Analyse des Satzes abzielen. Etwas an der Linie des probabilistischen CKY, das versucht, die wahrscheinlichsten Unterknoten zurückzugeben. Ich arbeite derzeit im Python Nltk-Framework, aber auch Java-Lösungen wären in Ordnung.Gibt es Wahlkreis-Parser, die nicht auf eine vollständige Analyse abzielen?
0
A
Antwort
2
Klingt, als ob Sie nach "oberflächlichen Parsing" oder "Chunking" suchen. Ein Chunker könnte nur NPs in Ihrem Text identifizieren, oder nur NPs und VPs, etc. Ich glaube nicht, dass der Nltk eine gebrauchsfertige Version bietet, aber es ist ziemlich einfach, Ihre eigenen zu trainieren. Chapter 7 des Nltk-Buches enthält detaillierte Anweisungen zum Erstellen oder Trainieren verschiedener Arten von Chunkern. Die Chunks können sogar geschachtelt werden, wenn Sie ein bisschen hierarchische Struktur möchten.
Verwandte Themen
- 1. kann nicht auf UserAreaActivity abzielen?
- 2. Gibt es eine vollständige Aspekt-orientierte Programmiersprache?
- 3. Gibt es eine vollständige Übersicht über die Ereignisse von FabricJS?
- 4. Gibt es eine einfache Möglichkeit, eine vollständige P4-Änderungsliste wiederherzustellen?
- 5. gibt es die vollständige URL der aktuellen Seite (PHP)
- 6. Gibt es eine vollständige Dokumentation von Selenium Webdriver für NodeJS?
- 7. Gibt es eine Möglichkeit, eine App.config-Datei auf eine andere vollständige Konfigurationsdatei zu verweisen? (.NET)
- 8. Gibt es eine minimale vollständige Taktik in Coq?
- 9. Gibt es Code-Analyse-Tools, die meine Arbeit erleichtern?
- 10. Gibt es vollständige Beispiele, die alle NSURLConnection-Delegatmethoden verwenden?
- 11. Gibt es eine C1-Code-Coverage-Analyse für Ruby?
- 12. Gibt es Java-Frameworks für die Analyse von Binärdateien?
- 13. Gibt es eine vollständige Liste von integrierten Funktionen, die nicht mit Schlüsselwortargument aufgerufen werden können?
- 14. Gibt es eine Bearbeitungsentfernungsmetrik, die nicht auf der Reihenfolge beruht?
- 15. Gibt es eine vollständige x86-Assemblersprachreferenz, die die AT & T-Syntax verwendet?
- 16. Welche Möglichkeiten gibt es, um eine vollständige Reparatur in Cassandra zu beschleunigen?
- 17. Erneut auf eine vollständige beobachtbare
- 18. Gibt es eine Cart/Catalog App, die keine vollständige Site ist?
- 19. Gibt es eine solide Methode für die Wavelet-Analyse in Python?
- 20. Gibt es eine Möglichkeit, eine vollständige Site-Schaltfläche in einer mobilen App ohne Javascript zu haben?
- 21. Gibt es eine vollständige Liste der Active Directory-Attribute und eine Zuordnung zu LDAP?
- 22. Kann ich Python-Anwendungen mit PyObjC schreiben, die auf nicht-jailbroken iPhones abzielen?
- 23. Gibt es Werkzeuge zur statischen Analyse von Scala-Code?
- 24. Gibt es eine Möglichkeit, eine aggressive und vollständige Garbage Collection in Java zu starten?
- 25. Gibt es eine Möglichkeit, DebugDiag Analysis über die Befehlszeile auszuführen?
- 26. Nicht-Echtzeit-FFT-Analyse auf Audiodatei
- 27. Gibt es in Haskell Standardlösungen für die lexikalische Analyse, die ein dynamisches Laufzeitlexikon ermöglichen?
- 28. Kann ASP.NET 5-Klassenbibliothek auf .NET 3.5 abzielen?
- 29. Gibt es eine vollständige Implementierung des HTML5-Canvas-Objekts für GWT?
- 30. Gibt es eine (RESTful) API für die Linux-man-Seiten?