Ich möchte den Crawler auf die nächste Seite gehen, um Daten zu extrahieren jede Hilfe auf was zu tun ist. Ich bin ein wenig verloren auf was zu tun ist. Ich habe versucht, scrapy, aber es ist ein wenig kompliziert und bs4 ist bequemer.Webcrawler mehrere Seite Iteration
import bs4 as bs
import urllib.request
import pandas as pd
import re
source = urllib.request.urlopen('https://messageboards.webmd.com/').read()
soup = bs.BeautifulSoup(source,'lxml')
df = pd.DataFrame(columns = ['link'],data=[url.a.get('href') for url in soup.find_all('div',class_="link")])
lists=[]
for i in range(0,33):
link = (df.link.iloc[i])
source1 = urllib.request.urlopen(link).read()
soup1 = bs.BeautifulSoup(source1,'lxml')
for url1 in soup1.find_all('a',class_="next"):
next_link = soup1.find('a',href = True, text = re.compile("next"))
if next_link:
lists.append(link+url1.get('href'))