1

Ich bin ein Neuling im Bereich des maschinellen Lernens. Ich habe Udacitys Kurs "Einführung in maschinelles Lernen" belegt. Daher kann ich grundlegende Klassifikatoren mit sklearn und python ausführen. Aber alle Klassifikatoren, die sie im Kurs lehrten, wurden auf einen einzigen Datentyp trainiert.Wie trainiere ich einen Klassifikator auf verschiedenen Feature-Typen zusammen? Wie String, numerisch, kategorisch, timestamp usw.

Ich habe ein Problem, bei dem ich ein Code-Commit als "sauber" oder "fehlerhaft" klassifizieren möchte. Ich habe ein Feature-Set, das String-Daten (wie Name der Person), kategorische Daten (sagen "sauber" vs "Buggy"), numerische Daten (wie keine Commits) und Timestamp-Daten (wie Zeitpunkt der Festschreibung) enthält. Wie kann ich einen Klassifikator basierend auf diesen drei Merkmalen gleichzeitig trainieren? Nehmen wir an, dass ich einen Naive Bayes-Klassifikator und Sklearn verwenden möchte. Bitte Hilfe!

Ich versuche, die paper zu implementieren. Jede Hilfe wäre wirklich spürbar.

Antwort

0

Viele maschinelle Lernklassifizierer wie logistische Regression, Random Forest, Entscheidungsbäume und SVM funktionieren sowohl mit kontinuierlichen als auch mit kategorialen Merkmalen. Meine Vermutung ist, dass Sie zwei Wege folgen müssen. Der erste ist Daten Vorverarbeitung. Konvertieren Sie beispielsweise alle string/cateogorical-Daten (Name einer Person) in ganze Zahlen oder verwenden Sie ensemble learning.

Ensemble-Lernen ist, wenn Sie verschiedene Klassifikatoren (jeder mit einer Art von heterogenen Features) zum Beispiel mit Mehrheitswahl kombinieren, so dass sie einen Konsens in der Klassifizierung finden können. Ich hoffe es hilft.

+0

Hallo Victor. Ich habe an dem Problem gearbeitet, konnte aber nichts Wesentliches finden. Ich benutze die scikit-learn Bibliothek dafür. Können Sie mir mit einem Beispiel-Snippet helfen, wie Sie verschiedene Typen von Features in einem Klassifikator zusammen verwenden können? Danke im Voraus – harshlal028

Verwandte Themen