1

Ich habe einen Clustering-Algorithmus für das Zusammenfassen von Protokolldateien implementiert und teste ihn derzeit mit dem Adjusted Rand-Index und dem Adjusted Mutual Information-Index gegen Bodenwahrheitsdaten.Angepasste gegenseitige Informationen (scikit-learn)

Eingabe zu meinem Algorithmus ist eine Liste von Protokolleinträgen, und Ausgabe ist eine Liste von ganzen Zahlen (die Clusterbeschriftung, zu der jedes Element gehört). Die Grundwahrheit ist in ähnlicher Weise eine Liste von ganzen Zahlen, wobei jede ganze Zahl den wahren Cluster darstellt, zu dem das Element gehört. Für die meisten meiner Testfälle erhalte ich normale/erwartete Ergebnisse, aber eine Datei gibt mir eine unerwartete Ausgabe.

Grund Wahrheit Liste: Ich habe die zwei Listen, die Ground-Truth-Clustering sowie die meines Algorithmus eingeschlossen http://pastebin.com/9Y5TE6b7

Eigene Clustering: http://pastebin.com/hJz1M4sf

Diese beiden Listen werden in scikit gefüttert -learn Funktionen, um den ARI und AMI zu erhalten. Der ARI-Score sieht in etwa korrekt aus, aber AMI liegt über 1, was laut Dokumentation und Definition von AMI nicht möglich sein sollte, wenn ich es richtig verstehe. Dieser Datensatz ist sehr unausgewogen, aber viele meiner anderen Dateien sind ähnlich ausgewogen. Ich kann das nicht herausfinden. Als Referenz ist die Partituren I für ARI und AMI erhalten:

ARI: 0,99642743999922712

AMI: 1,0190170466324

+0

Ich habe einen Fehler bei https://github.com/scikit-learn/scikit-learn/issues/6718 gemeldet. Danke, dass du das gefunden hast! – joeln

Antwort

1

Dies hat fixed in der Entwicklungsversion gewesen.