Zuerst ein wenig Kontext: Ich versuche, Straßenadressen in einem Korpus von Dokumenten zu identifizieren, und wir beschlossen, dass die offensichtliche Lösung hierfür wäre eine NLP (Apache OpenNLP in diese verwenden Case) Tool, um dies zu erreichen und bisher sieht alles gut aus, obwohl wir das Modell noch mit vielen Dokumenten trainieren müssen, aber das ist nicht wirklich ein Problem. Wir haben die Lösung verbessert, indem wir einen zusätzlichen Schritt für die Adressvalidierung hinzugefügt haben, indem wir den Parser USAddress von Datamade verwendet haben. Mein größtes Problem ist die Tatsache, dass die Adressen für sich nichts sind ohne einen Ort neben ihnen, manchmal wird der Ort im Text angegeben und wir werden davon ausgehen, dass dies oft passiert.Verknüpfen von mehreren Entitäten Name Finder mit OpenNLP
Hier kommt meine Frage: Gibt es eine Möglichkeit, Koreferenz zu verwenden, um die Entitäten in den Text zu verbinden? Oder besser noch: Gibt es eine Möglichkeit, willkürliche Wörter im Text zu kommentieren und sie als eine Einheit zu identifizieren?
Ich habe an der Apache OpenNLP Dokumentation suchen, aber ... es ist ziemlich dünn und ich denke, es braucht noch etwas Arbeit.
Was meinst du mit "Standort"? Was ist ein Beispiel für eine Adresse mit einem verknüpften Standort? – fgregg
Nehmen wir zum Beispiel diesen Satz: "Die Gemeinde befindet sich in ** 909 West Temple St. ** in dem entwicklungsintensiven Civic Center Teilmarkt von ** Los Angeles **, die Gemeinschaft beläuft sich auf 526 Einheiten." in diesem Fall wäre Los Angeles der Ort. –
Also "Los Angeles" ist ein "Ort"? – fgregg