Ich bin völlig neu in Scrapy, jetzt arbeite ich an einem Projekt, das ich Scrapy Crawling von dieser Website verwenden muss: https://www.google.com/partners/#a_search;bdgt=10000;lang=en;locn=United%20States;motv=0;wbst=http%253A%252F%252F
Ich kann nicht die gesamte URL Antwort in Scrapy übergeben, also habe ich PYCHARM zu debuggen es, ich fand, dass ich die URL vor # nur übergeben kann, kann jemand mir helfen, dieses Problem zu lösen? Danke vielmals!!!!Warum kann ich nicht Scrapy verwenden, um von dieser URL zu crawlen (mit "#" darin)?
Antwort
URL-Fragment (der Teil nach #) wird nicht an entfernte Webserver gesendet; So funktioniert HTTP. Das Fragment wird von einem Browser bearbeitet, nachdem die Anfrage gesendet wurde. im Fall von Google löst es einige JavaScript-Funktionen usw. aus
Scrapy ist kein Browser - es wertet JavaScript nicht aus; Scrapy lädt Daten einfach über HTTP herunter. Das ist der Grund dafür, dass Fragment von der URL entfernt wird, wenn Scrapy eine Seite abruft - es gibt keine Möglichkeit, sie zu verwenden.
Wenn Sie solche URLs Fragmente behandeln möchten, haben Sie zwei Möglichkeiten:
- emulieren, was Browser tun - prüfen, was HTTP fordert er machen wird, wenn Sie diese URL übergeben und emulieren sie in Scrapy;
- Verwenden Sie eine Browser-Engine zum Rendern einer Seite, z. Selen, PhantomJS oder Splash. Es gibt ein Plugin für scrapy + splash-Integration: https://github.com/scrapy-plugins/scrapy-splash.
Vielen Dank, ich denke, dass Splash genau das ist, was ich suche – jess1818
- 1. Wie scrapy verwenden, um mehrere Seiten zu crawlen?
- 2. Scrapy nicht crawlen Seiten erlaubt von LinkExtractor
- 3. Crawlen umgeleitete URLs mit scrapy
- 4. Scrapy Middleware zu ignorieren URL und Crawlen zu verhindern
- 5. Warum kann ich die Daten von dieser URL nicht abrufen?
- 6. Scrapy mit Selen Crawlen, aber nicht kratzen
- 7. Scrapy - Sollte ich Cookies beim Crawlen aktivieren
- 8. Rekursives Crawlen funktioniert nicht mit Scrapy Spider
- 9. Scrapy kann nicht crawlen link - Kommentar von vnexpress Website
- 10. Referenz-URL-Ketten beim Crawlen von Daten durch Scrapy erstellen?
- 11. Scrapy verarbeitet nicht alle Seiten beim Crawlen
- 12. Warum kann Applebot meine Website nicht crawlen?
- 13. Scrapy und XPath, um meine Site zu crawlen und URLs zu exportieren - was mache ich falsch?
- 14. Wie kann ich wget verwenden, um Dateien mit scrapy
- 15. Scrapy Crawlen 0 Seiten mit 200 Antwortstatus
- 16. Wie man Scrapy erzwingt, um doppelte URL zu kriechen?
- 17. nichts zu wiederholen Fehler mit Scrapy beim Crawlen geographic.org/streetview
- 18. Force-Python Scrapy nicht zu kodieren URL
- 19. Scrapy Crawler wird keine Webseiten crawlen
- 20. scrapy verwenden mongodb, um Informationen zu speichern
- 21. Get Scrapy Spider zum Crawlen der gesamten Website
- 22. Scrapy. Wie ändere ich die Spider-Einstellungen nach dem Crawlen?
- 23. Warum nicht ** verwenden kann, um zu bekommen Rückgabewert von pthread_join
- 24. Wie kann ich Scrapy innerhalb eines Python-Projekts kriechen lassen?
- 25. Verwenden Sie Curl und Xpath, um die Website zu crawlen
- 26. Warum leitet dieser mod_rewrite nicht um?
- 27. Warum kann Scrapy hier nicht finden?
- 28. Kann ich robots.txt verwenden, um bestimmte URL-Parameter zu blockieren?
- 29. Mehrere Crawling mit Scrapy
- 30. Zwingen Sie meine Scrapy Spinne zu stoppen Crawlen
Hoffnung [diese] (http://stackoverflow.com/questions/33395133/scrapy-google-crawl-doesnt-work/33395421#33395421) hilft – eLRuLL
Ich habe versucht, [link] (https: // www. google.com/partners/?a_search.))[Link](https://www.google.com/partners/?search...)dieser funktioniert nicht :( – jess1818
Oder versuchen Sie PhantomJS + Selenium Inside Scrapy .... [siehe meine Antwort] (http://stackoverflow.com/a/40833619/4094231) – Umair