Ich arbeite an einem einfachen Web-Scraping-Programm, aber ich kann nicht einmal scheinen, eine einfache Reihe von Seiten herunterzuladen und ihre Größen zu erhalten.Fehler Web Scraping mit ThreadPoolExecutor
ist hier mein Code:
from concurrent.futures import ThreadPoolExecutor as Executor
urls = """reddit twitter tumblr instagram linkedin""".split()
def fetch(url):
from urllib import request, error
try:
data = request.urlopen(url).read()
return '{}: length {}'.format(url, len(data))
except error.HTTPError as e:
return '{}: {}'.format(url, e)
with Executor(max_workers=4) as exe:
template = 'http://www.{}.com'
jobs = [exe.submit(
fetch, template.format(u)) for u in urls]
results = [job.result() for job in jobs]
print('\n'.join(results))
In der Kommandozeile
Ich bin mitpython scrape.py
aber ich erhalte die Störung
Traceback (most recent call last): File "scrape.py", line 1, in from concurrent.futures import ThreadPoolExecutor as Executor ImportError: No module named concurrent.futures
Was ich brauche, um Um diesen Fehler zu überwinden?
Gibt es keine Rückportierung auf 2,7? – wogsland
https://pypi.python.org/pypi/futures (Disclaimer: Ich habe es noch nie versucht) – alexanderlukanin13
Kann nicht schaden, es zu versuchen. Danke! – wogsland