2017-02-11 5 views
0

Ich bin ein Neuling für maschinelles Lernen, und ich habe folgende Frage. Angenommen, ich habe für einige Daten einen Klassifizierungsalgorithmus implementiert und die beste Kombination von Merkmalen für den Klassifizierungsalgorithmus erkannt. Wenn ich eines Tages Daten von derselben Ressource bekomme, denen das Zielmerkmal in der vorherigen Klassifizierungsaufgabe fehlt, kann ich die beste Kombination von Merkmalen für die Klassifizierung direkt zur Clusteraufgabe verwenden? (Ich weiß, dass ich das Modell verwenden kann, das ich trainiere, um das Ziel von Daten vorherzusagen, aber ich möchte nur wissen, ob die beste Kombination von Merkmalen zwischen Klassifikations- und Clustering-Algorithmen gleich ist)Beziehung zwischen Funktionen für Klassifizierung und Clustering

Ich habe Websites und jede Ressource durchsucht, die ich kenne , aber ich kann keine Antwort auf meine Frage finden. Kann mir jemand etwas sagen oder mir einfach einen Link geben? Vielen Dank!

Antwort

0

Ich würde ja sagen, vorausgesetzt die Art des Ziels ist in beiden Fällen gleich. Was wir im Idealfall erreichen wollen, ist eine steuerbare Anzahl von Merkmalen, die im N-Raum orthogonal (senkrecht zueinander) sind, so dass jeder maximal zur Vorhersage beitragen kann.

Nehmen Sie ein konkretes Beispiel, das von T-Shirts und ob sie große oder kleine Größe sind. Sie erhalten Daten, die zeigen, dass bei der Herstellung ein gewisser Materialschwund auftritt, was bedeutet, dass die T-Shirts ein wenig unregelmäßig ausfallen und die Schrumpfung zwischen der Höhe und der Breite variiert, aber nicht viel. Die Daten zeigen Höhe, Breite und Farbe und Sie möchten entscheiden, ob sie in der großen Gruppe oder in der kleinen Gruppe sind. Sie finden, dass die Höhe und Breite wichtig sind, aber die Farbe nicht, also entscheiden Sie sich, mit der Höhe und Breite als Ihre Klassifikationsmerkmale zu gehen.

Der wichtige Punkt ist, dass diese beiden Merkmale als die orthogonalsten zueinander identifiziert wurden, was in einem Klassifizierungs- oder Clusterkontext gelten sollte. Die Anzahl der Cluster bleibt ein zu untersuchender Faktor.

0

Es kann nicht gut genug sein.

Zum Beispiel kann ein Entscheidungsbaum oder eine zufällige Gesamtstruktur analysiert werden, um die Wichtigkeit von Merkmalen zu erhalten. Aber das wird Ihnen nicht sagen, welche Art von Vorverarbeitung (insbesondere Skalierung und Gewichtung) notwendig ist, um sie gruppieren zu können (insbesondere kategorische Merkmale sind schwierig zu verwenden, alles, was nicht kontinuierlich ist oder das verzerrt ist, ist hart).

Darüber hinaus neigen Daten dazu, sich im Laufe der Zeit zu ändern. Funktionen, die einmal wichtig waren (z. B. Facebook-Likes), sind jetzt nutzlos.

Verwandte Themen