2009-07-26 10 views
5

Wordpress hat ein Spam-Filter-Plugin namens Akismet, das in der Lage ist, jeden Textblock als Spam zu klassifizieren. Der einzige Nachteil ist, dass Sie über ihre Schnittstelle gehen müssen und ihre Datenbank/Algorithmus ist nicht Open-Source-oder anderweitig verfügbar.Gibt es eine kostenlose Anti-Spam-Datenbank?

Es gibt auch kommerzielle Anbieter, die eine Web-API zur Verfügung stellen, mit der Sie die E-Mails, Kommentare oder anderen von Benutzern in Ihrer Webanwendung eingereichten Text klassifizieren können.

Gibt es eine Open-Source- oder eine frei zugängliche Datenbank, die einen Textblock als Spam/Nicht-Spam klassifizieren kann?

Edit: Hier ist eine deutlichere Erklärung, was ich will

Grundsätzlich Ich hatte gehofft, dass es eine umfangreiche Datenbank mit den Wahrscheinlichkeiten bestimmter Sätze um Spam da draußen war. Da (wie ich annehme) Spammer alle E-Mail-Adressen gleich spammen, indem ich meinen Bayes'schen Spam-Filter mit dieser Datenbank vorbelege, könnte ich eine Anwendung erstellen, die am Anfang die meisten Spam ohne Benutzertraining erfasst.

Antwort

1

aktualisiert basierend auf Kommentar:

Ich glaube nicht eine einfache Datenbank, den Trick tun würde. Die meisten Spam-Mails werden algorithmisch generiert (z. B. enthält Kommentar-Spam normalerweise Inhalte aus dem Post). Akismet macht eine Kombination von Dingen, die wahrscheinlich Link-Analyse und die Verwendung bekannter Spam-Signaturen beinhaltet, aber sie veröffentlicht es nicht.

Ich habe über einige interessante AI-Projekte zu classify good rather than bad content gelesen. Sie können sich auch Spam Karma anschauen, die Blogkommentare basierend auf einer Vielzahl von Spam-Triggern analysiert (Post of Response unmittelbar nach dem Laden der Seite, etc.).


Original-Antwort (DNS schwarze Listen):

+0

Ich suche mehr nach einer Datenbank, die einen Textblock als Spam oder jetzt klassifizieren kann. Akismet (ein Wordpress-Plugin) zum Beispiel kann jeden Kommentar als Spam klassifizieren oder nicht. –

+0

Wie von Jon angegeben, ist eine Datenbank für die Klassifizierung nicht sehr nützlich. Akismet ahmt die prozedurale Generierung nach, die zum Erstellen von Spam verwendet wird, anstatt sie gegen eine Datenbank zu prüfen. – JoshJordan

+0

Danke für diese Links. Während es viele Algorithmen gibt, um Spam zu klassifizieren, ist eine gute Datenbank mit Spam-Signaturen SEHR wertvoll. Ich hatte gehofft, dass jemand wie Wordpress oder Google seine Spam-Signaturen als kostenlose Datenbank veröffentlicht hat. Unwahrscheinlich, ich weiß. Aber ein Mann kann richtig träumen? –

1

Vielleicht ist dies eine totale Frage - überprüfen Sie diese jedoch: http://www.stopforumspam.com Verwenden Sie ihre API, um die IP oder eingegebene Benutzernamen oder E-Mails gegen ihre DB zu überprüfen. Aber ich rate Ihnen, cURL mit seinem Timeout-Parameter zu verwenden - der Dienst kann oder kann manchmal nicht auf Sie warten.

Verwandte Themen