2008-11-17 33 views
7

Ich bin stecken in einen einfachen Spam-Filter schreiben Ich bin nicht wirklich sicher, wie ich es tun werde.Wie schreibe ich spam filter

Bis jetzt habe ich Wordlist und Domain-Filtering, die Punkte bis zu einem bestimmten Schwellenwert geben oder entfernen wird.

Wenn Sie beispielsweise über "v1agr4" aus einer Blacklist-Domain schreiben, erhalten Sie 2 Punkte für Spam, aber wenn Sie über "v1agr4" von einem hotmail.com-Account schreiben, " Ich bekomme nur 1 "Spam-Punkt".

Haben Sie noch andere Vorschläge/Ressourcen?

Dies ist mehr über Spam-Filter Lernen als etwas Unternehmensklasse zu entwickeln

Antwort

1

Blick in Bayesian Spam Filtering.

Ich weiß, Perl hat eine Bibliothek dafür, also würde ich annehmen, dass Java auch einen haben würde.

0

können Sie delegieren, das zu einem verteilten Service. Akismet ist eine sehr gute Lösung.

0

Das Schreiben eines Spamfilters hängt von Ihren Anforderungen für Skalierbarkeit ab.

Wenn Sie eine skalierbare Lösung wünschen, dann ist die Inhaltsfilterung wahrscheinlich nicht die klügste Wahl, da sie sehr CPU- und speicherintensiv ist. Stattdessen würden Sie entweder eine Reputations-basierte Filterung oder eine Blacklist-basierte Filterung wählen viel CPU-freundlicher auf Ihrem Server und viel einfacher zu schreiben.

Ich schrieb eine a post on my blog, die die Idee hinter dem Schreiben eines Spam-Filters aus der Sicht des Programmierers erklärt und deckt alle Optionen von Content-based Filtering auf Blacklist-basierte Filterung.