2016-10-12 4 views
0

Ich versuche, bestimmte Teile von HTML-Daten von bestimmten Websites zu kratzen, aber ich kann nicht scheinen, die Teile, die ich will, zu kratzen. Zum Beispiel habe ich mir die Herausforderung gestellt, die Anzahl der Follower von this blog zu scrapen, aber ich kann es nicht tun.Scraping HTML-Daten von der Website in Python

Ich habe versucht mit urllib, Anfrage, beautifulsoup sowie Jam API.

Hier ist, was mein Code sieht aus wie zur Zeit:

from bs4 import BeautifulSoup 
from urllib import urlopen 
import json 
import urllib2 

html = urlopen('http://freelegalconsultancy.blogspot.co.uk/') 
soup = BeautifulSoup(html, "lxml") 
print soup 

Wie würde ich mich über die Zahl der Anhänger in diesem instace ziehen?

Antwort

1

Sie können die Anhänger nicht greifen, da es ein Widget ist, das von Javascript geladen wird. Sie müssen Teile des HTML durch CSS-Klasse oder ID oder durch das Element greifen.

Z. B:

from bs4 import BeautifulSoup 
from urllib import urlopen 

html = urlopen('http://freelegalconsultancy.blogspot.co.uk/') 
soup = BeautifulSoup(html) 

assert soup.h1.string == '\nLAW FOR ALL-M.MURALI MOHAN\n'