Das Ziel ist es, extrem kleine oder große Datensätze für jedes Band basierend auf einer Formel zu finden.Ausreißer zu jedem Band von Datensätzen finden
Eingang:
Distance Rate
10 5
25 200
50 300
1000 5
2000 2000
Bands werden durch meine Eingabe definiert. Zum Beispiel möchte ich zwei Bänder für diesen Eingang haben (tatsächlich gibt es mehr, wie 10 Bänder) für die Entfernung: 1-100, 101-10000.
Für jedes Band wollen wir alle Datensätze finden, die die Raten Ausreißer durch Formel f
(von mittleren zwei Standardabweichungen entfernt, wenn Sie in der Formel interessiert sind)
Die Formel f
I
(Rate- avg(Rate) over())/(stddev(Rate) over()) > 2
Ausgang:
Distance Rate
10 5
1000 5 (this number is for illustrative purpose only.)
Der schwierige Teil ist I d Ich weiß nicht, wie man es für jede Band macht, und es macht die Anwendung der Formel schwieriger.
Was ist eine "Band der Aufzeichnungen"? Und welcher Teil des Problems ist ein Problem? Eine Beispielabfrage würde wirklich helfen. Wie weisen Sie zum Beispiel die Bänder zu? –
@GordonLinoff Ich interpretiere es als eine Gruppe von Zeilen mit einer bestimmten Spalte Wert passt in einen beliebigen Bereich. –
@TabAlleman Ja. Lassen Sie mich mehr Erklärungen in die Frage bringen. –