2017-05-28 6 views
-2

Ich triyng die IP-Adresse alle von dieser Website https://hidemy.name/es/proxy-list/#listWeb mit BeautifulSoup und Python Verschrottung

aber nichts auszudrucken geschieht

Code in Python 2.7:

import requests 
from bs4 import BeautifulSoup 

def trade_spider(max_pages): #go throw max pages of the website starting from 1 
    page = 0 
    value = 0 
    print('proxies') 
    while page <= 18: 
     value += 64 
     url = 'https://hidemy.name/es/proxy-list/?start=' + str(value) + '#list' #add page number to link 
     source_code = requests.get(url) #get website html code 
     plain_text = source_code.text 
     soup = BeautifulSoup(plain_text, 'html.parser') 

     for link in soup.findAll('td',{'class': 'tdl'}): #get the link of this class 
      proxy = link.string #get the string of the link 
      print(proxy) 

     page += 1 

trade_spider(1) 

Antwort

0

Sie don‘ Es wird keine Ausgabe angezeigt, da in Ihrer Suppe keine übereinstimmenden Elemente vorhanden sind. Ich habe versucht, alle Variablen auf Ausgabestrom auszugeben und herausgefunden, dass diese Website Crawler blockiert. Versuchen Sie, die plain_text-Variable zu drucken. Es wird wahrscheinlich nur Warnmeldung wie enthalten:

Es scheint, dass Sie Bot sind. Wenn ja, verwenden Sie bitte eine separate API-Schnittstelle. Es billig und einfach zu bedienen.

Verwandte Themen