2017-09-29 2 views
0

Also ein bisschen eine allgemeine Frage. Ich arbeite als Datenanalyst für ein Startup. Mein primärer Prozess besteht darin, die vorhandenen Kundendaten eines Kunden zu übernehmen und sie zu bereinigen/zu normalisieren, damit sie einmal als Teil unseres Onboarding-Prozesses in unsere Plattform passen. Ein Mitglied unseres Teams exportiert seine Daten von seinem System, aus dem sie stammen, oder, wenn sie es intern verfolgen, erhalten wir ihr Excel-Protokoll, das sie verwendet haben, um es zu verfolgen. Es ist immer in einem anderen Format und erfordert umfangreiche Reinigung (Durchschnitt 1 min/Rekord). Wir nehmen, was normalerweise eine große Tabelle ist (.xlxs-Format) und nach der Bereinigung in vier .csv-Dateien aufteilen; die wir als vier Tische auf unserer Plattform laden.Automatisierung der rohen Export Datenbereinigung für Client Onboarding - Format ist immer anders

Ich glaube, ich habe den Prozess in Bezug auf die Prozessschritte und die Bereinigung mit Excel-Funktionen (wenn, concat, Text-zu-Spalten, usw.) sehr gut optimiert. Ich habe Anfänger-Fortgeschrittene Fähigkeiten in VBA und SQL und habe gerade die Oberfläche in R gekratzt; Was frustrierend ist, ist, dass ich weiß, dass es das Potenzial gibt, diesen Prozess zu automatisieren, aber ich weiß einfach nicht, wo ich anfangen soll. Wenn jemand Erfahrung mit so etwas hat, wäre Code, ein Link zu einem Artikel/einem anderen Thread oder einfach nur eine allgemeine Richtung sehr willkommen. Bitte erkundigen Sie sich, wo Sie es für nötig halten. Vielen Dank.

+1

Wenn sich das Format der Daten ständig ändert, besteht der erste Schritt bei der Automatisierung darin, dem Kunden zu erklären, wie er die Kosten niedrig halten kann (und daher die Kosten), indem er das Format nicht ständig ändert . Bis sie Ihnen konsistente Daten liefern, werden Sie immer viel manuelle Arbeit zu tun haben. – YowE3K

+0

Identifizieren Sie einen bestimmten häufig ausgeführten Schritt oder Prozess, verallgemeinern Sie ihn, um einige Untertypen dieses Prozesses abzudecken, und versuchen Sie dann, diese eine Sache zu codieren. Posten Sie zurück mit Ihrem Code, wenn Sie auf Probleme stoßen und Leute wahrscheinlich helfen werden. Es ist schwierig, genauer zu sein, ohne zu wissen, was es eigentlich ist. –

Antwort

0

Dies wird in Excel wirklich schwer zu tun sein. Wenn Sie Zeit haben, können Sie Optimus ausprobieren, eine Datenbereinigungsbibliothek, die in Python und Pyspark geschrieben wurde (Sie brauchen keinen Funken zu kennen). Hier ist die Webseite https://hioptimus.com.

Sie können damit Datenpipelines erstellen, und ich empfehle Ihnen, dies zu tun, versuchen Sie, Ihre Prozesse zu verallgemeinern, und bitten Sie den Client für eine Struktur der Weitergabe der Daten.

Die gute Sache ist, dass Sie keine Big Data für den Betrieb von Optimus brauchen, Bit, wenn Sie es eines Tages haben, wird der gleiche Code funktionieren.

Schauen Sie sich die Dokumentation für mehr:

http://optimus-ironmussa.readthedocs.io/en/latest/

Lassen Sie mich wissen, wenn Sie Zweifel haben!