Ich habe eine Verwirrung über BinaryClassificationMetrics
(Mllib) Eingänge. Gemäß Apache Spark 1.6.0 müssen wir vorhergesagt und die Bezeichnung des Typs (RDD[(Double,Double)])
aus dem transformierten Datenrahmen übergeben, der vorhergesagt hat, Wahrscheinlichkeit (Vektor) & rawPrediction (Vektor).Wie vorhergesagt und Label Spalten in BinaryClassificationMetrics Auswertung für Naive Bayes Modell
Ich habe RDD [(Double, Double)] aus Predicted und Label-Spalten erstellt. Nach der Durchführung BinaryClassificationMetrics
Auswertung auf NavieBayesModel, kann ich ROC, PR etc. abrufen. Aber die Werte sind begrenzt, ich kann die Kurve nicht mit dem daraus erzeugten Wert plotten. Roc enthält 4 Werte und PR enthält 3 Werte.
Ist es der richtige Weg PredictedandLabel der Vorbereitung oder benötige ich rawPrediction Spalte oder Wahrscheinlichkeit Spalte statt Prognostizierte Spalte zu benutzen?
Sie versuchen sollten, geben 'BinaryClassificationMetrics' die rohen Wahrscheinlichkeiten und stellen Sie dann eine Reihe von Fächern, wenn' BinaryClassificationMetrics' Erstellen der Anzahl der Punkte einzustellen. Wenn Sie ein Modell verwenden, das von Spark generiert wurde (wie ein LogisticRegressionModel), müssen Sie den Schwellenwert löschen, um das gesamte Wertespektrum zu erhalten. –
@Hawknight. Bearbeitet die Frage mit ** rawPrediction ** anstelle von ** rowProbability **. Ich habe ein Szenario, das ich NavieBayesModel verwenden muss, ist in diesem Modell keine klare Schwellenwertfunktion verfügbar. Ich hoffe, dass Sie zu der gleichen Spalte angeben, die ich in diesem Kommentar erwähne, nicht die ** Wahrscheinlichkeit ** –
@Hawknight Gibt es eine Möglichkeit, Schwelle ausdrücklich von NavieBayesModel zu löschen. –