2009-08-03 8 views
7

Ich arbeite an einem Abschluss-Projekt für einen meiner Universitätskurse, und ich brauche einen Platz, um mehrere Crawler laufen zu lassen, die ich in C# geschrieben habe. Ohne Web-Hosting-Erfahrung bin ich ein bisschen verloren. Ist das etwas, was jede Seite erlaubt? Benötige ich einen speziellen Host, der mehr Zugriff auf den Server bietet? Der Crawler ist eine einfache App, die ihre Arbeit erledigt und dann regelmäßig Informationen in eine entfernte Datenbank schreibt.Auf welcher Art von Webhost können Sie Crawler ausführen?

+1

Können Sie es nicht einfach auf Ihrem Desktop/Laptop oder auf dem Universitätsserver ausführen? –

Antwort

6

Ein Web-Crawler ist eine Simulation eines normalen Benutzers. Es gibt Seiten wie Browser, die den HTML-Code (Javascript, etc.) vom Server bekommen (also keinen internen Zugriff auf den Server-Code). Dadurch kann jede Site gecrawlt werden.

Beachten Sie einige web crawler ethics guidelines. Es gibt Seiten, die Sie nicht indexieren oder deren Links folgen sollten. Und Webentwickler erstellen Web Crawlern einige Dateien und Anweisungen und sagen, was Sie indizieren oder verfolgen können.

0

Sie benötigen einen VPS (Virtual Private Server) oder einen vollständigen dedizierten Server. Crawler sind nichts anderes als Anwendungen, die das Internet "kriechen". Während Sie eine Website als Crawler einrichten können, ist dies nicht praktikabel, da auf die Webseite zugegriffen werden müsste, damit Ihr Crawler arbeiten kann. Sie müssen die ToS (Servicebedingungen) für den Host lesen, um zu sehen, wie die Nutzungsbedingungen lauten. Einige der Hosts mit niedrigeren Preisen werden Ihre Verbindung abbrechen, weil Sie sich negativ auf das Netzwerk auswirken, wenn Sie versuchen, zu viel Bandbreite zu verwenden, obwohl sie Ihnen genügend zur Verfügung gestellt haben.

VPS sind etwa $ 30-80 für einen Linux-Server und $ 60 + für einen Windows-Server. Dedizierte Dienste führen $ 100 + für Linux- und Windows-Server aus.

0

Sie benötigen kein Webhosting, um Ihre Spinne laufen zu lassen. Fragen Sie einfach nach einem PC mit einer Internetverbindung, der als dedizierter Server fungieren kann, konfigurieren Sie die Datenbank und führen Sie den Crawler von dort aus aus.

1

Das scheint nichts mit Web Hosting zu tun zu haben. Sie brauchen nur eine Maschine mit einer Internetverbindung und einem Datenbankserver.

Ich würde mit Ihrer Universität überprüfen, wenn ich Sie wäre. Zumindest in meiner Zeit war vieles möglich, wenn es um Abschlussarbeiten ging.

Wenn das nicht klappt, könnten Sie in ein einfaches VPS (Virtual Private Server) Konto schauen. Sofern Sie nicht sicher sind, dass Ihre App unter Mono läuft, benötigen Sie eine Windows-Version. Die Ressourcenbeschränkungen sind normalerweise viel niedriger als die von einem dedizierten Server, aber sie sind relativ erschwinglich. Einige bieten eine MS SQL Server-Datenbank, die Sie neben dem VPS-Konto (auf einem anderen Computer) verwenden können. Die Installation von SQL Server auf dem VPS selbst kann ein Lizenzproblem sein.

Stellen Sie sicher, dass Sie die Nutzungsbedingungen gelesen haben, bevor Sie ein Konto eröffnen, sowie die (virtuellen) Systemspezifikationen. Überprüfen Sie auch, ob eine Mindestvertragslaufzeit besteht. Manchmal kann dies länger als einen Monat dauern, besonders wenn keine Einrichtungsgebühr erhoben wird.

Suchen Sie nach Möglichkeit einen Host, der geografisch nah bei Ihnen liegt. Ein Server auf der anderen Seite der Welt kann ein wenig nervig sein, um remote mit Remote Desktop zugreifen zu können.

1

Wenn Sie es aus irgendeinem Grund nicht von Ihrem Desktop ausführen können, benötigen Sie einen Host, mit dem Sie beliebigen C# -Code ausführen können. Die meisten billigen Webserver tun dies wegen der möglichen Sicherheitsauswirkungen nicht, da es mehrere andere Leute geben wird, die auf demselben Server laufen.

Dies bedeutet, dass Sie auf einem Server sein müssen, auf dem Sie Ihr eigenes Betriebssystem haben.Entweder ein VPS - Virtual Private Server, bei dem Virtualisierung verwendet wird, um Ihnen ein eigenes Betriebssystem zu geben, aber die Hardware zu teilen - oder Ihren eigenen dedizierten Server, wo Sie sowohl die Hardware als auch die Software für sich haben.

Beachten Sie, dass Sie, wenn Sie auf einem Server laufen, der in irgendeiner Weise geteilt wird, sicherstellen müssen, dass Sie sich selbst drosseln, um keine Probleme für Ihre Nachbarn zu verursachen; Ihr Hauptproblem wird nicht zu viel CPU oder Bandbreite sein. Dies ist nicht nur eine Frage der Höflichkeit - die meisten Webhosts sperren Ihr Hosting, wenn Sie Probleme in Ihrem Netzwerk verursachen, z. B. wenn Sie anderen Benutzern der Hardware, auf die Sie zugreifen, die Ressourcen verweigern, indem Sie sie alle selbst verbrauchen. Sie können in der Regel höhere Auslastungsstufen sprengen, aber sie werden Sie abschneiden, wenn Sie sie für einen längeren Zeitraum aufrechterhalten.

1

80legs können Sie ihre Crawler verwenden, um Millionen von Webseiten mit Ihrem eigenen Programm zu bearbeiten.

Die Preise sind:

  • $ 2,00 pro Million Seiten
  • 0,03 $ pro CPU-Stunde

Sie behaupten, einen Tag zu kriechen 2 Milliarden Web-Seiten.

Verwandte Themen