Wie kann ich mit einem einzigen Crawler Daten aus mehreren Domänen durchsuchen? Ich habe das Crawlen einzelner Sites mit einer schönen Suppe gemacht, konnte aber nicht herausfinden, wie man einen generischen erstellt.Wie Crawlen mehrerer Domänen mit einzelnen Crawler?
-1
A
Antwort
0
Nun, diese Frage ist fehlerhaft, Websites, die Sie scrappen möchten, müssen zum Beispiel etwas gemeinsam haben.
from bs4 import BeautifulSoup
from urllib import request
import urllib.request
for counter in range(0,10):
# site = input("Type the name of your website") Python 3+
site = raw_input("Type the name of your website")
# Takes the website you typed and stores it in > site < variable
make_request_to_site = request.urlopen(site).read()
# Makes a request to the site that we stored in a var
soup = BeautifulSoup(make_request_to_site, "html.parser")
# We pass it through BeautifulSoup parser in this case html.parser
# Next we make a loop to find all links in the site that we stored
for link in soup.findAll('a'):
print link['href']
0
Wie bereits erwähnt, hat jede Seite ihre eigenen Einstellungen für Selektoren (,, usw.). Ein einzelner generischer Crawler ist nicht in der Lage, in eine URL zu gehen und intuitiv zu verstehen, was zu scrapen ist.
BeautifulSoup ist möglicherweise nicht die beste Wahl für diese Art von Anfrage. Scrapy ist eine andere Web-Crawler-Bibliothek, die etwas robuster ist als BS4.
ähnliche Frage hier auf Stackoverflow: Scrapy approach to scraping multiple URLs
Scrapy Dokumentation: https://doc.scrapy.org/en/latest/intro/tutorial.html
Verwandte Themen
- 1. Scrapy Crawler wird keine Webseiten crawlen
- 2. Behandeln mehrerer Domänen in Schienen
- 3. CORS mit Anmeldeinformationen und Whitelist mehrerer Domänen
- 4. Mehrere Domänen auf einzelnen VPS-Tröpfchen
- 5. Crawler-Instanzen
- 6. Abfragen mehrerer Domänen für ein Computerobjekt
- 7. Wie Crawlen des Intranets mithilfe von Schreifrosch?
- 8. Verknüpfen mehrerer Tasten mit einem einzelnen modalpopupextender
- 9. Backlink-Reporting-Website Crawler?
- 10. Google Crawler Time Restriction
- 11. Webseiten schnell re-crawlen
- 12. MP3 Link Crawler
- 13. Jsessionid stört das Crawlen
- 14. Wie kann ich diesen Code separat crawlen?
- 15. Konfigurieren TYPO3 Crawler Extension
- 16. Crawlen amazon.com
- 17. Anzeigen mehrerer Seiten einer einzelnen Datei
- 18. Wie Crawler Retweets eines bestimmten Benutzers?
- 19. Anzeige mehrerer Datenpunkte in einzelnen Chart
- 20. Web-Crawler mit Perl
- 21. Speichern mehrerer Werte in einer einzelnen Spalte
- 22. Wie sollte Google meinen Blog crawlen?
- 23. Synchronisierung mehrerer Tasks auf einem einzelnen Thread
- 24. Plotten mehrerer Graphen auf einem einzelnen Tablettbildschirm
- 25. Crawlen mehrerer Sites mit Python Scrapy mit begrenzter Tiefe pro Site
- 26. Crawlen von Webseiten mit Einschränkungen
- 27. Wie kann ich Javascript in einem Perl Web Crawler behandeln?
- 28. Anzeige mehrerer Unterberichte in einem einzelnen Berichtsobjekt
- 29. Anzeigen mehrerer Fehlermeldungen in einer einzelnen Nachrichtenbox
- 30. Crawlen umgeleitete URLs mit scrapy