2017-02-22 3 views
0

Ich habe lokalen Ausreißer-Faktor auf einen Datensatz namens Shuttle heruntergeladen von UCI. Jedes Mal, wenn ich einen Algorithmus auf Shuttle-Datensätzen mit oder ohne Entscheidungsklasse laufen lasse, zeichnet elki verschiedene Ausgabediagramme. Ich bin verwirrt, was ist der Grund dafür, jedes Mal verschiedene Ausgabegraphen zu zeichnen?Ausgabe Graph Änderung auf LOF

Antwort

0

Die Visualisierung verwendet Apache Batik, die sowohl ein komplexes XML-Dokument (SVG, um genau zu sein) als auch Batiks Rendering-Baum im Speicher benötigt.

Dies macht die Visualisierung nicht sehr skalierbar, und es gibt die Parameter

-vis.sampling 

Welche standardmäßig auf eine Stichprobe von 10000. Bei größeren Datensätzen wird also jedes Mal ein anderes Beispiel angezeigt: . Es verwendet natürlich immer noch alle Daten zur Analyse. Es wäre ziemlich einfach, einen Parameter hinzuzufügen, um den Zufallskeim zu beheben, aber Menschen neigen dazu, über zu viele Parameter zu beschweren ...

Für Varianten des Shuttle-Datensatz besser geeignet für die Erkennung von Ausreißern finden Sie auf diese Website:

http://www.dbs.ifi.lmu.de/research/outlier-evaluation/DAMI/literature/Shuttle/

Beachten Sie, dass die Dateien richtig zu lesen, werden Sie die Parameter -arff.externalid id -arff.classlabel outlier müssen, so dass die ID-Spalte für die Analyse nicht verwendet wird, und die Ausreißer Label Spalte wird als Klasse für die Auswertung verwendet nur.

+0

Thx bro für Ihre Antwort. Ich habe noch ein Problem mit Elki, weil die Ausgabe von 50000 Datenpunkten zu lange dauert, um die Ausgabe von LOF in einer Textdatei zu sehen. Ist es in Elki möglich? –

+0

Ja, wählen Sie den Ergebnisschreiber anstelle des Visualizers. –

Verwandte Themen