2016-04-23 5 views
0

Ich versuche R zu lernen, und finde es schwierig, genau das zu finden, wonach ich suche. Es gibt Tonnen von Bibliotheken.Wie findet man Ausreißer in R, die Text mit einem numerischen Wert vergleichen?

Ich habe einen Beispieldatensatz von 150k Vor- und Nachnamen und ihre Gehälter.

Zum Spaß würde ich gerne sehen, ob irgendwelche Vor- oder Nachnamen mit deutlich höheren oder niedrigeren Lohn verbunden sind.

,"FirstName","LastName","BasePay" 
1,"NATHANIEL","FORD","167411.18" 
2,"GARY","JIMENEZ","155966.02" 
3,"ALBERT","PARDINI","212739.13" 

ich verwendet haben versucht: library("arulesViz") und rules <- apriori(data)

Aber es scheint zu versuchen Korrelation genaue Gehaltszahlen zu finden, nicht, dass das Gehalt relativ hoch oder niedrig ist.

Jede Hilfe zu diesem Problem, um mich zu starten würde wirklich geschätzt werden!

Grüße, Steven

+0

Diese Frage scheint off-topic zu sein, weil es mehr um Statistiken geht und nicht wirklich um eine spezielle Programmierfrage. Vielleicht ist es besser, dies auf [Überprüft] zu stellen (http://stats.stackexchange.com) – Jaap

Antwort

0

Ich denke, es ist eine völlig legitime Frage ist. Ich würde das Paket dplyr verwenden. Sie können dann die Funktionen "group_by" und "summarize" verwenden. In Ihrem Fall group_by (Vorname) und wählen Sie dann jede Art von Statistik, d. H. Mittelwert oder Median des Gehalts als Maß für die Verzerrung.

Verwandte Themen