2016-04-27 3 views
0

Als Antwort auf @ j.jerrod.taylor Antwort, lassen Sie mich meine Frage neu formulieren, um Missverständnisse zu beseitigen.Glatte Werte mit Bin-Grenzen: Wo setzen Sie einen Wert, der genau zwischen der unteren und oberen Grenze liegt?

Ich bin neu im Data Mining und lerne, wie man mit verrauschten Daten umgeht, indem ich meine Daten mit der Methode "Gleichbreite/Entfernung" über "Bin Boundaries" glätten. Nehmen Sie den Datensatz 1,2,2,3,5,6,6,7,7,8,9 an. Ich möchte auszuführen:

  1. Abstand Binning mit 3 Behältern und
  2. Glatte Werte von Bin Grenzen basierend auf Werten in # binned 1.

Basierend auf Definition in (Han, Kamber, Pei, 2012, Data Mining-Konzepte und Techniken, Abschnitt 3.2.2 verrauschten Daten):

In Glättung durch bin Grenzen, das Minimum und Maximalwerte in einem gegebenen Bin werden als die Bin-Grenzen identifiziert. Jeder Bin-Wert wird dann durch den nächsten Randwert ersetzt.

  • Intervallbreite = (max-min)/k = (9-1)/3 = 2,7
  • Bin Intervalle = [1,3.7), [3.7,6.4), [6,4, 9.1]

  • Original Bin1: 1,2,2,3 | Fachgrenzen: (1,3) | Glatte Werte von Bin Grenzen: 1,1,1,3

  • Original Bin2: 5,6,6 | Fachgrenzen: (5,6) | Glatte Werte von Bin Grenzen: 5,6,6
  • Original Bin3: 7,7,8,9 | Fachgrenzen: (7,9) | Glatte Werte von Bin Grenzen: 7,7, , 9

Frage: - wo kommt gehören in Bin3 wenn Bin Grenzen Methode binned verwenden, da es 1 von 7 und -1 ab 9?

Antwort

0

UPDATE MIT RICHTIGEN ANTWORT:

Meine Klasse endlich dieses Thema bedeckt, und der Antwort auf meine eigene Frage ist, dass 8 zu entweder 7 oder 9 gehören kann. Dieses Szenario wird als "tie-breaking" beschrieben, wobei der Wert der gleiche Abstand von jeder Grenze ist. Es ist akzeptabel, dass alle diese Werte konsistent an dieselbe Grenze gebunden sind.

Hier ist ein echtes Beispiel für ein NIH Analyse Papier, das „tie zu brechen“, wenn sie gleich-Abstandswert begegnen erklärt werden: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3807594/

0

Wenn dies ein Problem ist, dann berechnen Sie Ihre Fachbreiten falsch. Beispielsweise ist das Erstellen eines Histogramms ein Beispiel für das Datenbinning.

Sie können this Antwort auf crossvalidated lesen. Aber im Allgemeinen, wenn Sie versuchen, Ganzzahlen bin, dann wird Ihre Grenze ein Doppel sein.

Wenn Sie zum Beispiel alles zwischen 2 und 6 in einem Fach haben wollen, ist Ihre tatsächliche Grenze 1,5 bis 6,5. Da alle Ihre Daten ganze Zahlen sind, gibt es keine Möglichkeit, dass irgendetwas nicht klassifiziert wird.

edit: Ich habe auch das gleiche Buch, obwohl es scheint, als ob ich eine andere Version habe, weil der Abschnitt über Daten Diskretisierung in Kapitel 2 statt Kapitel 3 ist, wie Sie darauf hingewiesen. Basierend auf Ihrer Frage scheint es, dass Sie das Konzept noch nicht wirklich verstehen.

Das Folgende ist eine Ausnahme von Seite 88 Kapitel 2 zur Datenvorverarbeitung. Ich benutze die zweite Ausgabe des Textes.

Zum Beispiel Attributwert können durch Anlegen gleiches Breite oder gleich Frequenz-Binning, und dann Ersetzen jedes Binwert durch das Fach Mittelwert oder medianen diskretisiert werden, wie durch ist in Glättungsmittel oder Glättung von Bin Mediane. 8 gehört nirgendwo anders als in Bin 3. Dies gibt Ihnen zwei Möglichkeiten. Sie können entweder den Mittelwert/Median aller Zahlen in Fach 3 verwenden oder Sie können Fach 3 als Kategorie verwenden.

Das Gebäude an Ihrem Beispiel, können wir den Mittelwert der 4 Zahlen in Fach 3 nehmen. Dies gibt uns 7,75. Wir würden jetzt 7,75 für die vier Zahlen verwenden, die in diesem Fach statt 7,7,8 und 9 sind.

Die zweite Option wäre, die Fachnummer zu verwenden. Zum Beispiel alles in Bin 3 würde eine Kategorie Label von 3 erhalten, alles in Fach 2 würde ein Etikett von 2 erhalten, usw.

+0

Sie mißverstanden meine Frage auf „Glättungswerten von Bin Grenzen“ und „Grenzen sind ". Ich habe meine Frage so umformuliert, dass sie alle Details enthält, die zu meiner Frage führen. – user2771721

+0

@ user2771721 Ich habe nichts falsch verstanden. Siehe meine Bearbeitung. –

Verwandte Themen