Antwort

2

Dies hängt davon ab, was Ihr Modell klassifiziert. Wenn Sie etwas tun, bei dem die Klassifizierung durch Stoppwörter unterstützt wird - ein gewisses Maß an Syntaxverständnis - dann müssen Sie entweder die Stoppwörter beibehalten oder Ihre Stoppliste ändern, damit Sie nicht verlieren diese Information. Zum Beispiel kann das Ausschneiden aller Verben des Seins (ist, sind, sollte sein, ...) ein NN durcheinander bringen, das etwas von der Satzstruktur abhängt.

Wenn Ihre Klassifizierung jedoch themenbasiert ist (wie von Ihrer Bag-of-Word-Referenz vorgeschlagen), behandeln Sie die Eingabe auf die gleiche Weise: Entfernen Sie diese lästigen Stoppwörter, bevor sie wertvolle Trainingszeit verbrennen.

Verwandte Themen