Wordpress hat ein Spam-Filter-Plugin namens Akismet, das in der Lage ist, jeden Textblock als Spam zu klassifizieren. Der einzige Nachteil ist, dass Sie über ihre Schnittstelle gehen müssen und ihre Datenbank/Algorithmus ist nicht Open-Source-oder anderweitig verfügbar.Gibt es eine kostenlose Anti-Spam-Datenbank?
Es gibt auch kommerzielle Anbieter, die eine Web-API zur Verfügung stellen, mit der Sie die E-Mails, Kommentare oder anderen von Benutzern in Ihrer Webanwendung eingereichten Text klassifizieren können.
Gibt es eine Open-Source- oder eine frei zugängliche Datenbank, die einen Textblock als Spam/Nicht-Spam klassifizieren kann?
Edit: Hier ist eine deutlichere Erklärung, was ich will
Grundsätzlich Ich hatte gehofft, dass es eine umfangreiche Datenbank mit den Wahrscheinlichkeiten bestimmter Sätze um Spam da draußen war. Da (wie ich annehme) Spammer alle E-Mail-Adressen gleich spammen, indem ich meinen Bayes'schen Spam-Filter mit dieser Datenbank vorbelege, könnte ich eine Anwendung erstellen, die am Anfang die meisten Spam ohne Benutzertraining erfasst.
Ich suche mehr nach einer Datenbank, die einen Textblock als Spam oder jetzt klassifizieren kann. Akismet (ein Wordpress-Plugin) zum Beispiel kann jeden Kommentar als Spam klassifizieren oder nicht. –
Wie von Jon angegeben, ist eine Datenbank für die Klassifizierung nicht sehr nützlich. Akismet ahmt die prozedurale Generierung nach, die zum Erstellen von Spam verwendet wird, anstatt sie gegen eine Datenbank zu prüfen. – JoshJordan
Danke für diese Links. Während es viele Algorithmen gibt, um Spam zu klassifizieren, ist eine gute Datenbank mit Spam-Signaturen SEHR wertvoll. Ich hatte gehofft, dass jemand wie Wordpress oder Google seine Spam-Signaturen als kostenlose Datenbank veröffentlicht hat. Unwahrscheinlich, ich weiß. Aber ein Mann kann richtig träumen? –