Wir entwickeln ein großangelegtes Web Scraping/Parsing Projekt. Grundsätzlich muss das Skript eine Liste von Webseiten durchgehen, den Inhalt eines bestimmten Tags extrahieren und in einer Datenbank speichern. Welche Sprache würden Sie dafür in großem Umfang empfehlen (Dutzende von Millionen Seiten?). .Welche Technologie für Scrapping/Parsing im großen Maßstab?
Wir verwenden MongoDB für die Datenbank, also ist alles mit soliden MongoDB-Treibern ein Plus.
Bisher haben wir PHP (lacht nicht), curl und Simple HTML DOM Parser verwendet, aber ich glaube nicht, dass das auf Millionen von Seiten skalierbar ist, zumal PHP kein richtiges Multithreading hat.
Wir brauchen etwas, das leicht zu entwickeln ist, auf einem Linux-Server laufen kann, einen robusten HTML/DOM-Parser zum einfachen Extrahieren dieses Tags hat und problemlos Millionen von Webseiten in einer angemessenen Zeitspanne herunterladen kann. Wir suchen nicht wirklich nach einem Web-Crawler, weil wir den Links nicht folgen und keinen Inhalt indexieren müssen. Wir müssen nur ein Tag von jeder Seite einer Liste extrahieren.
Übrigens bietet NServiceBus (Verteilung, Persistenz, Sicherheit, Transaktionen und Zuverlässigkeit der Arbeit in der Warteschlange) - Beispiel: https://github.com/leblancmeneses/NWebHooks –