2017-04-03 5 views
1

Ich versuche, diese Site zu scrappen, bekomme aber 'NotSupported: Nicht unterstütztes URL-Schema' ': Kein für dieses Schema verfügbarer Handler' dieser Fehler. Wenn die Regel nicht falsch ist, warum sie auftritt und was Ihr Vorschlag ist, bitte hilf mir. Danke vielmals.NotSupported: Nicht unterstütztes URL-Schema '': Kein Handler für dieses Schema verfügbar

Code ist hier:

from scrapy.spiders import CrawlSpider, Rule, BaseSpider 
from scrapy.linkextractors import LinkExtractor 
class FellowSearch(CrawlSpider): 
    name ='fellow' 
    allowed_domains = ['emma.cam.ac.uk'] 
    start_urls = [' https://www.emma.cam.ac.uk/'] 

    rules =(Rule(LinkExtractor(allow=(r'\?id=\d+$')),callback='parse_obj', follow=True),) 

    def parse_obj(self, response): 
     print response.url 
+0

Ich sehe ein Leerzeichen vor 'Https'? –

Antwort

1

Sie benötigen Platz in Ihrer start_urls Änderung start_urls = ['https://www.emma.cam.ac.uk/'] vor https zu entfernen.

+0

danke für deine Hilfe – Rana

+0

Könntest du bitte meine Scrapy-Regeln überprüfen? es scrapy nur 31 url aber es gibt mehr als 100 – Rana

+0

Sie sollten eine neue Frage öffnen und spezifizieren, welche URLs Sie extrahieren möchten, und ich würde froh sein, Ihnen zu helfen. – vold

Verwandte Themen