-1

Ich habe einen Datensatz von einigen Werben Verlage. Publisher verdienen Geld für jeden Klick auf die Werbung. Der Datensatz besteht aus der Publisher-Liste und der entsprechenden Anzahl an Klicks und der Anzahl der Transaktionen, die sie verursacht haben. Das Problem ist, ob der Publisher betrügt und klicken Sie auf seine eigene Werbung, um mehr Geld zu verdienen oder nicht. aber einige dieser Publisher Gesamt Klick ist sehr, sehr klein (unter 10) und daher die Anzahl der Transaktionen sind 0.Klicken Sie auf Betrugserkennung mit einer Menge von Null-Daten

meine Frage ist, was soll ich mit diesen Null-Daten tun? Sie ruinieren tatsächlich meine gaußsche Datenverteilung. Was soll ich mit ihnen machen? einfach aus meinem Datensatz eliminieren? Gibt es einen statistischen Ansatz, um so etwas zu tun?

Übrigens bin ich sehr neu in der Datenanalyse und entschuldige mich, wenn die Antwort offensichtlich ist, aber ich konnte keine Antwort im Web finden.

Antwort

1

Entfernen Nullen

>>> x = [0,2,0,5,0,6,77,8,9] 
>>> list(filter((0).__ne__, x)) 
[2, 5, 6, 77, 8, 9] 

Die Form Ihrer Gaußsche Verteilung wird sich ändern.

+0

danke für Ihre Antwort, aber ändert es nicht die Verteilung und das Ergebnis p (x). @ Richard –

Verwandte Themen