2009-07-29 5 views
8

Welche Art von Arbeit wurde durchgeführt, um festzustellen, ob eine bestimmte Zeichenfolge zu einem geografischen Standort gehört? Zum Beispiel:Identifizieren geographischer Standorte in Text

'troy, ny' 
'austin, texas' 
'hotels in las vegas, nv' 

denke ich, was bin ich irgendwie erwartet ein statistischer Ansatz ist, dass ein gewisses Maß an Vertrauen gibt, dass die ersten beiden Standorte sind. Letzteres würde wahrscheinlich eine Heuristik erfordern, die "% s,% s" ergreift und dann die gleiche Technik verwendet. Ich suche gezielt nach Ansätzen, die sich nicht zu sehr auf den Satz "in" verlassen, da es sich dabei nicht um einen ganz eindeutigen oder durchgängig verfügbaren Ortsindikator handelt.

Kann mir jemand auf Ansätze, Papiere oder vorhandene Dienstprogramme verweisen? Vielen Dank!

Antwort

7

Das Problem, das Sie beschreiben oft genannt wird, geographische Abfrageanalyse oder allgemein geographische Informationsabfrage.

Es gab eine aktuelle Aufgabe bei CLEF 2007 (http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm). Das Gewinnerteam verwendete eine regelbasierte Grammatik, die ähnlich zu dem ist, was Sie wahrscheinlich nicht wollen. Ein weiteres Paper auf www2009 spricht über GeoParser: http://www2009.eprints.org/239/.

Es gibt auch einige Papiere auf Geographic Information Retrieval in CIKM 2007: http://www.geo.unizh.ch/~rsp/gir07/accepted.html

Ich weiß nicht, von Open Source-Software, die dies tut, aber es kann in eine Suchmaschine wie Lemur gebündelt werden.

4

Es gibt einen sehr interessanten Ansatz von Everyblock.com, der sich darauf konzentriert, wie Standorte in Englisch ausgedrückt werden - sie verwenden im Grunde einige ausgeklügelte und umfangreiche reguläre Ausdrücke, die jetzt Open Source sind. Ihre Anwendung wurde entwickelt, um Nachrichtenartikel, Rezensionen und verschiedene öffentliche Datenfeeds zu durchsuchen und sie mit bestimmten Standorten in Beziehung zu setzen, und es funktioniert gut. Ausdrücke wie "Ein Feuer im Gebäude an der Nord-Ost-Ecke des 20. und Valencia St. in San Francisco" sind sehr genau geocodiert. Sie können die Quelle here studieren. Der Teil, den Sie wahrscheinlich wollen, ist ebpub/ebpub/geocoder/base.py, in der ebpub Download, und alles um sie herum, zum Beispiel beginnend mit der SmartGeocoder-Klasse und rückwärts arbeiten.

0

Ich baue eine freie geoparser bei geocode.xyz

(unterstützt derzeit über 50 europäischen Ländern, bald eine globale Abdeckung bieten)

Eine Beispielanwendung von geoparsing auf OpenWikiMap