Ja, Stop-Wörter automatisch erkannt werden.
Wort Frequenzen als Ganzes
Eine Möglichkeit ist, auf Worthäufigkeiten als Ganzes zu betrachten.
Berechnen Sie die Häufigkeit aller Wörter in den kombinierten Texten. Sortieren Sie sie in absteigender Reihenfolge und entfernen Sie die oberen 20% oder so.
Sie können auch die unteren 5% entfernen. Dies sind keine Stoppwörter, aber für viel maschinelles Lernen sind sie belanglos. Vielleicht sogar Rechtschreibfehler.
Wörter pro „Dokument“
Eine andere Möglichkeit ist es, Wörter pro zu analysieren „Dokument“.
In einem Satz von Dokumenten können Stoppwörter erkannt werden, indem Wörter gefunden werden, die in einer großen Anzahl von Dokumenten vorhanden sind. Sie wären für das Kategorisieren oder Gruppieren von Dokumenten in diesem bestimmten Satz nutzlos.
z. Ein maschinelles Lernsystem, das wissenschaftliche Arbeiten kategorisiert, könnte nach der Analyse das Wort "abstrakt" als Stoppwort markieren, obwohl es nur einmal pro Dokument existiert. Aber wahrscheinlich in fast allen.
Das gleiche gilt für Wörter, die nur in einer sehr begrenzten Anzahl von Dokumenten gefunden werden. Sie sind wahrscheinlich falsch geschrieben oder so einzigartig, dass sie vielleicht nie wieder gesehen werden.
In diesem Fall ist es jedoch wichtig, dass die Verteilung zwischen Dokumentengruppen im Lernsatz gerade ist oder ein in eine große und eine kleine Gruppe unterteilter Satz alle signifikanten Wörter verliert (da sie in zu vielen Dokumenten vorhanden sind) oder zu wenig).
Eine weitere Möglichkeit, Probleme mit ungleich verteilten Gruppen im Trainingssatz zu vermeiden, besteht darin, nur Wörter zu entfernen, die in allen oder fast allen Dokumenten vorhanden sind. (Das heißt, unsere Lieblingsstoppwörter wie "a", "es", "das", "ein" usw. werden in allen englischen Texten vorkommen).
Zipf Gesetz
Als ich studierte Maschinelles Lernen und die Diskussion von Stop-Worte kam, wurde Zipf Gesetz erwähnt. Aber heute könnte ich Ihnen nicht sagen, wie oder warum, aber vielleicht ist es ein allgemeiner Grundsatz oder eine mathematische Grundlage, die Sie untersuchen möchten ...
Ich googelte "Zipf's Law automatische Stoppwort Erkennung" und eine schnelle Auswahl fand mich zwei PDF-Dateien, die von Interesse ...
sein kann