2009-03-12 7 views
3

Ich habe eine ziemlich große Datenbank von Standortadressen (500k +) aus der ganzen Welt. Obwohl viele der Adressen Duplikate oder Beinahe-Duplikate sind. Immer wenn eine neue Adresse eingegeben wird, überprüfe ich, ob es bereits in der Datenbank ist, und wenn ja, nehme ich das bereits bestehende lat/long und trage es auf den neuen Eintrag ein. Der Grund, warum ich nicht zu einer separaten Tabelle verlinke, ist, weil die Adressen nicht als eine Gruppe benutzt werden, um zu suchen, und ihre sind häufig genug Unterschiede in der Adresse, die ich sie unterscheiden will. Wenn ich eine vollständige Übereinstimmung für die Adresse habe, wende ich das lat/long an. Wenn nicht, gehe ich auf Stadtebene und wende das an, wenn ich dort kein Match bekomme, muss ich einen separaten Prozess laufen lassen.Aufräumen verpasste Geocodierung (oder allgemeine Hinweise zur Datenbereinigung)

Jetzt haben Sie den umfangreichen Hintergrund, das Problem. Gelegentlich komme ich zu einem lat/long, das weit außerhalb des normalen akzeptablen Fehlerbereichs liegt. Seltsamerweise sind es normalerweise nur ein oder zwei dieser Breiten- und Längenangaben, die außerhalb des Bereichs liegen, während der Rest der Daten in der Datenbank mit dem korrekten Städtenamen existiert.

Wie empfehlen Sie, die Daten zu bereinigen. Ich habe die Geonames-Datenbank, also habe ich theoretisch die richtigen Daten. Worum ich mich ärgere, ist die Routine, die Sie ausführen würden, um dies zu erreichen.

Wenn jemand mich in Richtung einiger (niedriger Ebene) Daten Schrubbrichtung zeigen könnte, wäre das großartig.

+0

Ich verstehe das Problem nicht ganz ... Denkst du, du könntest es ein bisschen klären? –

Antwort

0

Dies ist eine alte Frage, aber wahre Prinzipien sterben nie, oder?

Ich arbeite in der Adressverifizierung für eine Firma namens SmartyStreets. Wenn Sie eine große Liste von Adressen haben und sie "aufgeräumt", auf offizielle Standards poliert und dann für jeden Aspekt Ihres Betriebs verlassen müssen, schauen Sie am besten in CASS-zertifizierte Software (nur USA; Länder sind sehr unterschiedlich, und viele bieten eine solche Dienstleistung offiziell nicht an).

Die USPS lizenziert CASS-zertifizierte Anbieter, Adressdaten zu "scrubben" oder "aufzuräumen" (dh zu standardisieren und zu verifizieren). Ich würde vorschlagen, dass Sie einen Dienst wie SmartyStreets 'LiveAddress untersuchen, Adressen zu überprüfen oder eine Liste auf einmal zu verarbeiten. Es gibt andere Möglichkeiten, aber ich denke, das ist das flexibelste und erschwinglichste für Sie. Sie können Ihre ursprüngliche Liste scrubben und anschließend die API verwenden, um neue Adressen zu validieren, sobald Sie sie erhalten.

Update: Ich sehe, Sie verwenden JSON für verschiedene Dinge (Ich liebe JSON, übrigens, es ist so einfach zu bedienen). Es gibt nicht viele Anbieter der Dienste, die Sie benötigen, die es anbieten, aber SmartyStreets tut. Darüber hinaus werden Sie in der Lage sein, sich über das Thema Adressvalidierung zu informieren, indem Sie einige der Ressourcen/Artikel auf dieser Site lesen.

+0

Nur aktualisiert; LiveAddress liefert jetzt Geokodierungskoordinaten. – Matt

Verwandte Themen