Ich habe eine Sammlung von Daten, die durch eine Reihe von Postleitzahlen indiziert ist. Ich möchte diese Daten nach der Nähe zu anderen geografischen Merkmalen, sagen wir, Entfernung zu einem nahe gelegenen See aggregieren.Nach Kategorie gruppieren, wenn Elemente zu mehreren Kategorien gehören
Es ist einfach genug zu sagen, Schleife durch jeden See in einem Datenrahmen und wenden Sie eine Haversine-Funktion, um alle Postleitzahlen innerhalb von 50 Meilen zurückzugeben. Oder umgekehrt; Ich kann einfach alle Postleitzahlen durchgehen und für jede eine Liste von Seen innerhalb von 50 Meilen von dieser Postleitzahl zurückgeben.
Aber ich möchte das ein bisschen effizienter machen. Wenn jeder Zip nur einem See entspricht, z. B. dem nächstgelegenen, besteht die einfache Möglichkeit darin, eine neue "lake"
-Spalte zu erstellen und dann groupby("lake")
anzuwenden, um die klassierten Daten zur Verarbeitung zu erhalten.
Was ich möchte ist eine Technik zum automatischen Duplizieren von Zeilen vor einer Gruppe durch. Sprich ich folgende Daten hatte:
lake
zip
10001 Huron
10002 Huron, Erie
10003 Erie, Superior
Ich möchte groupby
nennen Folgendes zurück:
group 'Huron'
zip
10001
10002
group 'Erie'
zip
10002
10003
group 'Superior'
zip
10003
Im Grunde ist es eine nette Art und Weise, dies zu tun, oder Sie sind im Wesentlichen mit den stecken Dirty-Loop-Through-Indices-Methode?
Dies hat den Trick gemacht. Prost. –