2017-03-28 2 views
1

Builtwith.com und ähnliche Dienste bieten (gegen eine Gebühr) Listen von Domains, die mit bestimmten Technologien wie SalesForce oder NationBuilder erstellt wurden. Es gibt einige Technologien, an denen ich interessiert bin, nach denen builtwith nicht sucht, wahrscheinlich weil sie eine zu geringe Marktpräsenz haben.Bester Crawler, um mit Technologien zu bauen?

Wenn wir bestimmte Seitensignaturen kennen, die aufzeigen, dass eine Technologie für eine Website verwendet wird, wie können Sie so viele dieser Websites am besten identifizieren? Wir gehen davon aus, dass es 1000er gibt, und wir sind an den Top-10M-Websites nach Traffic interessiert. (Wir denken nicht, dass die größten Websites diese Technologie verwenden.)

Ich habe eine Liste von Open Source Webcrawlern - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - aber mein Anwendungsfall scheint anders als viele der regulären Kriterien für Crawler, wie wir nur speichern möchten ' Treffer von Domains mit dieser Signatur. Wir müssen also nicht schnell sein, aber wir müssen alle Seiten der Website überprüfen, bis ein Treffer gefunden wird, nur verantwortungsvolle Crawling-Praktiken verwenden usw. Was ist das Beste?

Oder anstatt einen Crawler zu optimieren und zu laufen, gibt es eine Möglichkeit, Google oder eine andere Suchmaschine dazu zu bringen, Seiteneigenschaften zu finden, statt sichtbarem Inhalt, der ein besserer Ansatz wäre?

Antwort

2

Sie könnten tatsächlich einen Open-Source-Webcrawler optimieren. Der Link, den Sie gepostet haben, hat viele Ressourcen erwähnt, aber sobald Sie diejenigen entfernen, die nicht gepflegt werden, und diejenigen, die nicht verteilt sind, werden Sie nicht mit sehr vielen verlassen. Per definitionem wissen Sie nicht, welche Sites die gesuchten Signaturen enthalten. Sie müssten also eine Liste der Top 10M-Sites abrufen und sie crawlen. Dies ist eine wesentliche Operation, aber mit Tools wie Apache Nutch oder StormCrawler (nicht in dem von Ihnen geposteten Link aufgeführt) [DISCLAIMER Ich bin ein Committer auf Nutch und der Autor von SC]. Ein anderer Ansatz, der billiger und schneller wäre, wäre die zu verarbeiten. Sie stellen monatlich umfangreiche Web-Crawl-Daten bereit und erledigen das Crawlen des Webs für Sie - einschließlich der Höflichkeit usw. Natürlich werden ihre Datasets nicht perfekt abgedeckt, aber das ist so gut, wie Sie es bekommen würden wenn du selbst den Crawl laufen würdest. Es ist auch eine gute Möglichkeit, Ihre ursprünglichen Annahmen und den Code zum Erkennen der Signaturen bei sehr großen Daten zu überprüfen. Ich empfehle normalerweise, CC zu verarbeiten, bevor Sie mit einem Crawl im Web-Format beginnen. Die CC-Website enthält Details zu Bibliotheken und Code, um sie zu verarbeiten.

Was die meisten Leute tun, einschließlich mir selbst, wenn ich CC für meine Kunden verarbeite, besteht darin, die Verarbeitung mit MapReduce zu implementieren und sie auf AWS EMR auszuführen. Die Kosten hängen natürlich von der Komplexität der Verarbeitung ab, aber das Hardwarebudget liegt normalerweise in Hunderten von $.

hoffe, das hilft

EDIT: DZone haben, da über die Verwendung CommonCrawl einer meiner Blog-Posts veröffentlicht.

+0

Die CommonCrawl-Datasets und Beispielprojekte sehen aus, als könnten sie das sein, was wir brauchen. Ich warte ein wenig auf andere Antworten, werde das aber wahrscheinlich akzeptieren. Danke für deine Open Source Beiträge! –

+1

Sofern Sie die Seiten nicht mit [Google hacking] (https://en.wikipedia.org/wiki/Google_hacking) erfassen können, sehen Sie sich die Beispiele für Common Crawl für [RSS-Feeds] an (https://draft.li/blog/2016/03/21/rss-usage-on-the-web /) und [Wordpress-Themes] (https://medium.com/@paulrim/mining-common-crawl-with-php-39e14082c55c). –

Verwandte Themen