2010-11-23 8 views
3

Gibt es eine Möglichkeit, Webinhalte zu sammeln, um sie in einer Suchmaschine zu verwenden, ohne die Crawling-Phase zu durchlaufen? Irgendeine Alternative zum Webcrawlen?Suchmaschine ohne Crawling?

Dank

Antwort

5

Nein, die Inhalte, die Sie haben zu sammeln ... den Inhalt zu sammeln. :-)

+1

Fair genug. Vielen Dank :-) – wassimans

1

direkt oder indirekt müssen Sie das Web crawlen, um den Inhalt zu erhalten.

3

Ja (und Art von Nein).

:)

Sie herunterladen können vorhandene Daten-Dumps von verschiedenen Websites (wikipedia, Stackoverflow, etc.) und einem Teilindex auf diese Weise konstruieren. Es wird offensichtlich kein vollständiger Index des Internets sein.

Sie könnten auch Meta-Suche verwenden, um Ihre Suchmaschine zu erstellen. Hier verwenden Sie die APIs anderer Suchmaschinen und verwenden ihre Suchergebnisse als Grundlage für Ihren Index. Beispiele umfassen citosearch und opensearch. duckduckgo verwendet yahoo's boss api (und jetzt verwendet yahoo Bing ...) als Teil ihrer Suchmaschine.

Es gibt auch Echtzeit-Streaming-APIs, die Sie anstelle des Crawlens im Web verwenden können. Schauen Sie sich datasift als Beispiel an. Es gibt viel mehr Ressourcen, die Sie clever einsetzen und Crawling vermeiden/minimieren können.

2

Wenn Sie mit den neuesten Inhalten auf den Seiten aktualisiert werden möchten, können Sie das Protokoll pubsubhubbub verwenden, um Push-Benachrichtigungen für abonnierte Links zu erhalten. Oder verwenden Sie kostenpflichtige Dienste wie superfeedr, die dasselbe Protokoll verwenden.

0

Wenn Sie nicht crawlen möchten, können Sie einem Wiki-ähnlichen Ansatz folgen, bei dem Benutzer Links zu Websites (mit Titel, Beschreibung und Tags) senden können. So kann eine kollaborative Link-Sammlung erstellt werden.

Um Spam zu vermeiden, kann ein +/- System involviert sein, um nützliche Seiten zu wählen oder Tags oben und unbrauchbar zu machen.

Um Spammer zu vermeiden, die Massenabstimmung SERPs können Sie Stimmen nach Benutzer Ruf gewichten.

Benutzer Reputation kann durch Einreichen nützlicher Websites gewonnen werden. Oder irgendwie Nutzungsmuster nachzeichnen.

Und unter Berücksichtigung anderer Missbrauchsmuster zu.

Nun, Sie haben den Punkt, denke ich.

Da Spammer nach und nach Schwachstellen herkömmlicher Suchmaschinen entdecken (siehe Google bomb, Content-Scraper-Sites usw.), kann ein Community-basierter Ansatz funktionieren. Aber es wäre stark von dem cold start Effekt leidet, und wenn Gemeinschaft klein ist das System ist leicht zu missbrauchen und Gift ...

Mindestens Wikipedia und Stapel Exchange nicht so weit nutzlos Ebene spammed ...

PS: http://xkcd.com/810/