2017-08-11 9 views
0

Ich versuche, ein Modell zu bewerten, das ich erstellt habe. Das Modell gibt mir in der Ausgabe, eine Liste von IDs und ihre zugehörige Fehlerkonstruktion (eine Punktzahl) und die IDs sind in Abhängigkeit von dieser Punktzahl sortiert. sagen wir, je höher die Punktzahl, desto mehr verdächtig ist die ID.Spark - Evaluation Problem

Beispiel:

ids: t4, c1, s3, d5, a2, ... 
score: 18, 15, 13, 5, 2, ... 

Auch ich habe eine andere Liste, die die wirkliche verdächtige ids enthält.

suspicious: c1,d5 

mein Ziel ist es, dass x% der Ide in meiner verdächtigen Liste sind oben y% in der Score-Liste sagen zu können.

irgendwelche Ideen bitte? und Umsetzung in Funken wäre großzügig von Ihnen!

Antwort

0

hier ist das, was ich tat, Pandas Datenrahmen mit:

  • ich einen Datenrahmen df erstellt, die alle Daten enthalten, und lud die verdächtigen Daten in eine Serie.
  • hinzugefügt eine andere Spalte in df, die ich Label genannt. Die Bezeichnung des Datensatzes basiert darauf, dass ID in verdächtigem oder nicht vorhanden existiert
  • mit diesem endgültigen Datenrahmen (ID, Score, Label), konnte ich Zählungen basierend auf dem Label, und in der Lage sein, Aussage wie die haben in der Frage.