0

bewerten ich meinen eigenen Text-Klassifikator geschrieben haben, basierend auf einigen Sprachtheorie. Das endgültige Ergebnis des Klassifikators ist ein Tupelpaar eines Artikeltitels und der Binärkategorie.Wie kann ich meine eigenen Text-Klassifikator

habe ich auch den NB-Klassifikator auf meinem goldenen Standard Korpus und seine Leistung mit CV ausgewertet, mit Sci-Kit Bibliothek in Python zu lernen. Allerdings habe ich Probleme, herauszufinden, wie ich die Leistung meines eigenen Klassifikators beurteilen kann. : S

Ich würde schätzen Ihre Ideen wirklich, da ich nicht in der Maschine Lernenden erfahren bin.

Danke,

Guzdeh

+1

Wählen Sie eine angemessene Metrik aus [sklearn] (http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) und bereiten Sie Ihre Daten so vor, dass sie kompatibel sind. Wenn Sie einen guten in Ihrem NB-CV gewählt haben, dann können Sie es wieder – sascha

Antwort

0

einen Klassifikator zu bewerten, die häufigste Metrik ist die Genauigkeit, aber es gibt keine Daumenregel für alle möglichen Szenarien, ich würde so vorschlagen, dass Sie ein wenig über Auswertung lesen Metrik für Klassifikatoren. Lesen Sie auch über Bewertungsmethodik. Wenn Sie nicht mehr in der Lage sind, halten Sie sich zunächst an die Genauigkeit und Kreuzvalidierung, aber achten Sie darauf, was eine bestimmte Metrik bedeutet, was Ihre Methodik bedeutet, wie Sie eine Konfusionsmatrix lesen, jede Metrik und Methodik Vor- und Nachteile und besonders seine Beschränkungen.

Scikit der Erfahren Referenzseite für die Metriken: Link

Scikit Lernen Benutzerhandbuch für Kreuzvalidierung: Link

Sie sagten Sie Ihre goldenen Standard haben. Du hast gesagt, du hast dein Modell. Sie müssen dann nur eine Metrik und eine Bewertungsmethode wählen.

Ihr Modell wird eine Klasse/Ziel einen Eingang (ein Satz von Funktionen) gegeben vorhersagen. Die Vorhersage wird dann mit Ihrer Grundwahrheit/goldenem Standard verglichen.

+0

vielen Dank für Ihre Antworten, ich die Genauigkeit für meinen Klassifikator berechnet für jetzt. Ich bin etwas in Eile. Allerdings würde Ich mag auch eine kNN Klassifizierung mit Kosinusähnlichkeit Noten führen, aber nicht wissen, wie die Cosinus Ähnlichkeiten in Entfernungen zu transformieren mit kNN verwendet werden. Ich kann nichts Nützliches online finden. Hat jemand irgendwelche Empfehlungen? Danke im Voraus. :) – guzdeh

+0

Cosine Similarity ist eine paarweise Metrik, daher wird sie nicht direkt in der Klassifikation verwendet. Sie können jedoch einen KNN-Klassifikator direkt mit Ihrer Design-Matrix (vektorisierter Textkorpus) verwenden, Scikit Learn bietet einen: http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html – Rabbit

+0

Nur ein zusätzlicher Kommentar. Was ist der Grund dafür, dass Sie messen möchten, wie ähnlich Ihre Dokumente sind? Wenn Sie die Dokumente nach Ähnlichkeit ordnen möchten, handelt es sich um ein typisches Information Retrieval-Problem (ähnlich einer Suchmaschine). Lassen Sie es mich wissen, wenn Sie bereit sind, dieser Richtung zu folgen, denn dann brauchen Sie keinen Klassifikator. – Rabbit

Verwandte Themen