Bitte tragen Sie mit mir. Ich bin ziemlich neu bei Python - aber mit viel Spaß. Ich versuche einen Web-Crawler zu programmieren, der durch die Wahlergebnisse des letzten Referendums in Dänemark kriecht. Ich habe es geschafft, alle relevanten Links von der Hauptseite zu extrahieren. Und jetzt möchte ich, dass Python jedem der 92 Links folgt und 9 Informationen von jeder dieser Seiten sammelt. Aber ich bin so festgefahren. Hoffe, du kannst mir einen Hinweis geben.Web-Crawler - folgende Links
Hier ist mein Code:
import requests
import urllib2
from bs4 import BeautifulSoup
# This is the original url http://www.kmdvalg.dk/
soup = BeautifulSoup(urllib2.urlopen('http://www.kmdvalg.dk/').read())
my_list = []
all_links = soup.find_all("a")
for link in all_links:
link2 = link["href"]
my_list.append(link2)
for i in my_list[1:93]:
print i
# The output shows all the links that I would like to follow and gather information from. How do I do that?
Können Sie mehr über 9 Stück Informationen erwähnen, die Sie in jedem Links greifen möchten? – titipata
Wow - ihr seid super !! Ich werde einige Zeit damit verbringen müssen, Ihre Lösungen zu verstehen. Ich werde zurück sein, sobald ich sie verstanden habe. DANKE VIELMALS! – Metods
@titipat: Ja. Schauen Sie sich diese Unterseite an. Ich will "stemmeberettigede/Anzahl der Leute, die abstimmen können", "Optalte stemmer/gezählte Stimmen", "JA-stemmer/Leute, die ja stimmen", "NEJ-stemmer/leute, die nicht gewählt haben", "Blanke stemmer/blank Stimmen "," Ugyldige stemmer/ungültige Stimmen "und der Name der Gemeinde (Assenskredsen in diesem Fall) – Metods