diese Appreciate ist bereits hier viele Zeit gefragt, aber ich kann es scheinen, um für mich zu arbeiten.Python Screen Scraping Seite Schleife
Ich habe einen Schaber geschrieben, die erfolgreich alles, was ich von der ersten Seite der Website benötigen kratzt. Aber ich kann nicht herausfinden, wie man es durch die verschiedenen Seiten führt.
Die URL erhöht einfach wie diese BLAH/3 + 'page = x'
Ich habe sehr lange, um Code zu lernen, so dass jede Beratung geschätzt würde nicht!
import requests
from bs4 import BeautifulSoup
url = 'http://www.URL.org/BLAH1/BLAH2/BLAH3'
soup = BeautifulSoup(r.content, "html.parser")
# String substitution for HTML
for link in soup.find_all("a"):
"<a href='>%s'>%s</a>" %(link.get("href"), link.text)
# Fetch and print general data from title class
general_data = soup.find_all('div', {'class' : 'title'})
for item in general_data:
name = print(item.contents[0].text)
address = print(item.contents[1].text.replace('.',''))
care_type = print(item.contents[2].text)
Update:
r = requests.get('http://www.URL.org/BLAH1/BLAH2/BLAH3')
for page in range(10):
r = requests.get('http://www.URL.org/BLAH1/BLAH2/BLAH3' + 'page=' + page)
soup = BeautifulSoup(r.content, "html.parser")
#print(soup.prettify())
# String substitution for HTML
for link in soup.find_all("a"):
"<a href='>%s'>%s</a>" %(link.get("href"), link.text)
# Fetch and print general data from title class
general_data = soup.find_all('div', {'class' : 'title'})
for item in general_data:
name = print(item.contents[0].text)
address = print(item.contents[1].text.replace('.',''))
care_type = print(item.contents[2].text)
Update 2 !:
import requests
from bs4 import BeautifulSoup
url = 'http://www.URL.org/BLAH1/BLAH2/BLAH3&page='
for page in range(10):
r = requests.get(url + str(page))
soup = BeautifulSoup(r.content, "html.parser")
# String substitution for HTML
for link in soup.find_all("a"):
print("<a href='>%s'>%s</a>" % (link.get("href"), link.text))
# Fetch and print general data from title class
general_data = soup.find_all('div', {'class' : 'title'})
for item in general_data:
print(item.contents[0].text)
print(item.contents[1].text.replace('.',''))
print(item.contents[2].text)
einen Blick in diese Antwort Nehmen http://stackoverflow.com/questions/40809017/scrapy-scraping-links-found-while-scraping/40810840#40810840 Wenn diese dowsn't Hilfe Sie uns wissen lassen. – daniboy000
zu Schleife brauchen Sie 'while' oder' for' - jetzt haben Sie es nicht. – furas
@ daniboy000 - Entschuldigung, ich kann das nicht mit meinen vergleichen! : s – Maverick