Was sind Ihre Leistungsanforderungen? Ist niedriger Rückruf in Ordnung? Brauchen Sie hohe Präzision?
Basierend auf Ihrer Frage, ich vermute, Sie wollen etwas mit vernünftigen Rückruf (Lesen von Kleinanzeigen zum Senden von Spam?), Aber haben eigentlich keine Trainingsdaten.
Sie möchten eine Methode, mit der Dokumente klassifiziert werden können (mithilfe von Ereignissen aus einem Algorithmus für die Erkennung namentlich genannter Entitäten als Features), ohne dass Trainingsdaten bereitgestellt werden. Alle überwachten Methoden (einschließlich der Bayes'schen) erfordern Trainingsdaten, also was Sie fragen/wünschen ist nicht möglich. Sie benötigen auf jeden Fall beschriftete Daten. Wie können Sie sonst feststellen, wie gut Ihr Erkennungsprozess funktioniert?
In diesem Stadium sollten Sie sich nicht einmal Sorgen machen, welchen Klassifikator Sie verwenden sollten - ich schlage vor, eine Handvoll regulärer Ausdrücke zu schreiben, um zu sehen, wie schwer Ihr Problem ist/welche Leistung Sie erhalten. Es kann ein Dutzend regulärer Ausdrücke sein, die Ihnen 90% dieser Ereignisse bringen und Sie können vermeiden, das Problem zu übersteuern. Viel Glück!