Builtwith.com und ähnliche Dienste bieten (gegen eine Gebühr) Listen von Domains, die mit bestimmten Technologien wie SalesForce oder NationBuilder erstellt wurden. Es gibt einige Technologien, an denen ich interessiert bin, nach denen builtwith nicht sucht, wahrscheinlich weil sie eine zu geringe Marktpräsenz haben.Bester Crawler, um mit Technologien zu bauen?
Wenn wir bestimmte Seitensignaturen kennen, die aufzeigen, dass eine Technologie für eine Website verwendet wird, wie können Sie so viele dieser Websites am besten identifizieren? Wir gehen davon aus, dass es 1000er gibt, und wir sind an den Top-10M-Websites nach Traffic interessiert. (Wir denken nicht, dass die größten Websites diese Technologie verwenden.)
Ich habe eine Liste von Open Source Webcrawlern - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - aber mein Anwendungsfall scheint anders als viele der regulären Kriterien für Crawler, wie wir nur speichern möchten ' Treffer von Domains mit dieser Signatur. Wir müssen also nicht schnell sein, aber wir müssen alle Seiten der Website überprüfen, bis ein Treffer gefunden wird, nur verantwortungsvolle Crawling-Praktiken verwenden usw. Was ist das Beste?
Oder anstatt einen Crawler zu optimieren und zu laufen, gibt es eine Möglichkeit, Google oder eine andere Suchmaschine dazu zu bringen, Seiteneigenschaften zu finden, statt sichtbarem Inhalt, der ein besserer Ansatz wäre?
Die CommonCrawl-Datasets und Beispielprojekte sehen aus, als könnten sie das sein, was wir brauchen. Ich warte ein wenig auf andere Antworten, werde das aber wahrscheinlich akzeptieren. Danke für deine Open Source Beiträge! –
Sofern Sie die Seiten nicht mit [Google hacking] (https://en.wikipedia.org/wiki/Google_hacking) erfassen können, sehen Sie sich die Beispiele für Common Crawl für [RSS-Feeds] an (https://draft.li/blog/2016/03/21/rss-usage-on-the-web /) und [Wordpress-Themes] (https://medium.com/@paulrim/mining-common-crawl-with-php-39e14082c55c). –