2017-10-22 4 views
1

Ich bin ein Neuling in Python. Ich baue ein Web-Scraping-Tool, das eine URL in einer HTML-Zelle öffnen kann, nachdem die Kriterien erfüllt wurden. Jede Art von Hilfe wäre nützlich. Vielen Dank!Open URL, wenn bestimmte Bedingungen erfüllt sind

Dies ist der HMTL-Code, arbeite ich an: Wenn der Wert in div class = "inline-block" größer als 16%

<td data-href="https://www.example.com" data-th="Grade &amp; Rate"> 
    <div class="green inline-block m-right-10">A2</div> 
    <div class="inline-block">16%</div> 
</td> 

ich die URL in Daten-href öffnen möchten. Mir ist bewusst, dass ich zuerst den Prozentsatz in eine Floating-Nummer umwandeln muss, um das zu tun. Die Sache, die ich wissen möchte, ist nur, wie man die URL öffnet.

Ich benutze Selen und beautifulsoup bis jetzt, um durch Skript zu bauen. Dies ist eine Momentaufnahme, wie ich mein Projekt erstellt habe.

chromedriver = 'C:\\chromedriver.exe' 
browser = webdriver.Chrome(chromedriver) 
.... 
html = browser.page_source 
soup = BeautifulSoup(html, "lxml") 
tags = soup('td') 
urllist = list() 
for tag in tags: 
    z = tag.get('data-href','abcde') 
    if z not in urllist: 
     urllist.append(z) 

Antwort

-1

Sie können HTMLParser verwenden Sie den HTML-Code zu lesen und urllib.urlretrieve die URL zum Download bereit.

+0

Ich könnte den HTML-Code in der Tabelle analysieren, ich weiß nur nicht, wie ich darauf zurückkommen soll, wenn ein bestimmter Block innerhalb der Tabelle meine Anforderung erfüllt (größer als 16%). urllib.urlretrieve ist zum Herunterladen einer Seite. Ich möchte es öffnen, nicht herunterladen. Ich benutze eine Kombination aus Selen und einer schönen Seifenbibliothek für mein Projekt. So verwende ich zum Beispiel Selen, um meine URL mit browser.get (url) -Funktion zu öffnen –

Verwandte Themen