Ich habe ein kleines Problem mit meinem Projekt für die Universität.Dokumentklassifikation, mit genetischen Algorithmen
Ich muss Dokumentenklassifizierung mit genetischen Algorithmus implementieren.
Ich habe einen Blick auf this Beispiel hatte und (sagen wir mal) zu verstehen, die Prinzipien der genetischen Algorithmen, aber ich bin nicht sicher, wie sie in Dokumentenklassifizierung umgesetzt werden können. Kann die Fitness-Funktion nicht herausfinden.
Hier ist, was ich habe es geschafft, so weit zu denken (Es ist wahrscheinlich völlig falsch ...)
Akzeptieren Sie, dass ich die Kategorien haben und jede Kategorie durch einige Schlüsselwörter beschrieben.
Teilen Sie die Datei in Wörter.
Erstellen Sie die erste Grundgesamtheit aus Arrays (z. B. 100 Arrays, aber hängt von der Größe der Datei ab), die mit zufälligen Wörtern aus der Datei gefüllt sind.
1:
Wählen Sie die beste Kategorie für jedes Kind in der Bevölkerung aus (indem Sie die Schlüsselwörter zählen).
Crossover jeweils 2 Kinder in der Bevölkerung (neue Array mit der Hälfte der Kinder) - "crossover"
Füllen Sie den Rest der Kinder aus dem Crossover mit zufälligen nicht verwendeten Wörter aus der Datei - "Evolution ??"
Ersetzen Sie zufällige Wörter in zufälligen Kind aus der neuen Population mit zufälligem Wort aus der Datei (verwendet oder nicht) - "Mutation"
Kopieren Sie die besten Ergebnisse auf die neue Bevölkerung.
Gehe zu 1, bis ein Populationslimit erreicht ist oder eine Kategorie genug gefunden wurde
Ich bin mir nicht sicher, ob das korrekt ist und werde mich freuen, ein paar Ratschläge zu haben, Leute.
Viel zu schätzen wissen!
Können Sie genauer angeben, was genau das System erreichen soll? Etwas wie "Gegebene X Anfangsdaten, Ausgabe Y"? – sinelaw
Wir haben X Kategorien. Das System muss alle Dateien, die wir ihm geben, in die richtige Kategorie stellen. –
Sie müssen das System trainieren - wenn Sie beispielsweise eine Datenbank mit vorkategorisierten Dokumenten haben, kann der genetische Algorithmus diese für die Entwicklung der Klassifizierungsregeln verwenden. – sinelaw