Ich richte einen Naive Bayes Classifier ein, um zu versuchen, die Gleichheit zwischen zwei Datensätzen mit fünf Stringeigenschaften zu bestimmen. Ich vergleiche jedes Eigenschaftenpaar nur genau (d. H. Mit einer java .equals() -Methode). Ich habe einige Trainingsdaten, sowohl TRUE- als auch FALSE-Fälle, aber konzentrieren wir uns jetzt nur auf die TRUE-Fälle.Sollten 'trügerische' Trainingsfälle einem Naive Bayes Classifier übergeben werden
Angenommen, es gibt einige TRUE-Trainingsfälle, bei denen alle fünf Eigenschaften unterschiedlich sind. Das bedeutet, dass jeder Komparator versagt, aber die Aufzeichnungen werden nach einer menschlichen Einschätzung als "gleich" eingestuft.
Sollte dieser Trainingskoffer dem Naive Bayes Classifier zugeführt werden? Auf der einen Seite, angesichts der Tatsache, dass NBC jede Variable separat behandelt, sollten diese Fälle es nicht vollständig brechen. Es scheint jedoch richtig zu sein, dass eine ausreichende Zufuhr dieser Fälle für die Leistung des Klassifikators nicht vorteilhaft wäre. Ich verstehe, dass eine Menge dieser Fälle bedeuten würde, dass bessere Vergleicher erforderlich sind, aber ich frage mich, was ich in der Zeit tun sollte. Eine andere Überlegung ist, dass die Kehrseite unmöglich ist; Das heißt, es gibt keine Möglichkeit, dass alle fünf Eigenschaften zwischen zwei Datensätzen gleich sein können, und sie müssen immer noch "unterschiedliche" Datensätze sein.
Ist dies ein Vorzugsproblem, oder gibt es eine endgültige akzeptierte Praxis für den Umgang damit?
Es scheint mir, dass ein Lernalgorithmus nur dann angewendet werden sollte, wenn er die richtige Unterscheidung ermöglicht. Wenn es TRUE-Fälle gibt, die der Algorithmus nicht erkennen kann, wie Sie sagten, sollte er verbessert werden. Wenn das Problem auf menschliche Eingaben zurückzuführen ist, können Sie versuchen, es zu standardisieren, indem Sie alle Sonderzeichen entfernen und alle Buchstaben in Groß- oder Kleinbuchstaben ändern.Sie können auch einen differenzierteren Vergleich verwenden und versuchen, häufig auftretende Tippfehler oder Rechtschreibfehler zu entfernen. –