Ich habe eine ziemlich große Datenbank von Standortadressen (500k +) aus der ganzen Welt. Obwohl viele der Adressen Duplikate oder Beinahe-Duplikate sind. Immer wenn eine neue Adresse eingegeben wird, überprüfe ich, ob es bereits in der Datenbank ist, und wenn ja, nehme ich das bereits bestehende lat/long und trage es auf den neuen Eintrag ein. Der Grund, warum ich nicht zu einer separaten Tabelle verlinke, ist, weil die Adressen nicht als eine Gruppe benutzt werden, um zu suchen, und ihre sind häufig genug Unterschiede in der Adresse, die ich sie unterscheiden will. Wenn ich eine vollständige Übereinstimmung für die Adresse habe, wende ich das lat/long an. Wenn nicht, gehe ich auf Stadtebene und wende das an, wenn ich dort kein Match bekomme, muss ich einen separaten Prozess laufen lassen.Aufräumen verpasste Geocodierung (oder allgemeine Hinweise zur Datenbereinigung)
Jetzt haben Sie den umfangreichen Hintergrund, das Problem. Gelegentlich komme ich zu einem lat/long, das weit außerhalb des normalen akzeptablen Fehlerbereichs liegt. Seltsamerweise sind es normalerweise nur ein oder zwei dieser Breiten- und Längenangaben, die außerhalb des Bereichs liegen, während der Rest der Daten in der Datenbank mit dem korrekten Städtenamen existiert.
Wie empfehlen Sie, die Daten zu bereinigen. Ich habe die Geonames-Datenbank, also habe ich theoretisch die richtigen Daten. Worum ich mich ärgere, ist die Routine, die Sie ausführen würden, um dies zu erreichen.
Wenn jemand mich in Richtung einiger (niedriger Ebene) Daten Schrubbrichtung zeigen könnte, wäre das großartig.
Ich verstehe das Problem nicht ganz ... Denkst du, du könntest es ein bisschen klären? –