2017-10-25 8 views
0

Ich versuche, alle aufgezeichneten Ereignis Tabelle von der Website http://southasiaterrorism.trfetzer.com/districts/17497-IND-Nandurbar.html zu kratzen. Ich benutze Scrapy Spider dafür, aber es ist nicht möglich, diese Tabelle zu bekommen, da sie dynamisch geladen wird. Ich habe versucht, Selen zu verwenden, aber kein Ergebnis, ich habe die gleiche statische HTML-Seite ohne die Tabelle geladen. Jede Hilfe würde sehr geschätzt werden.Verwenden von Selen mit Scrapy

+1

Nein, es wird nicht dynamisch geladen, überprüfen Sie einfach die Seitenquelle in 'script' Tag gibt es eine Liste aller dieser Tabellenelemente, nur extrahieren Sie das. Keine Notwendigkeit von Selen für diese – Stack

+0

, aber ich sehe nicht, warum ich negative Zeichen verdienen, vielleicht für jemanden, es ist einfach, aber ich bin Neuling in all diesen Dingen. –

+0

Es ist egal, nur weiter zu lernen:) @ Sirak Ghazaryan – Stack

Antwort

0

Wie von @Stack erwähnt, ist der Inhalt nicht dynamisch geladen, es ist in der Seite innerhalb der <script> Tags. Sie können so etwas wie dies versuchen:

page = urllib2.urlopen(url).read() 
soup = BeautifulSoup(page) 
for tr in soup.find_all('tr')[2:]: 
    tds = tr.find_all('td') 
    print (tds) 

Von this question.

Hinweis: Dieser Code wurde nicht getestet.

+1

danke, in der Tat war die Lösung in BeautifulSoup, aber ich verwende auch regexp, um die benötigten Daten zu holen. –

+0

Ich empfehle Python-Anfragen anstelle von Urllib2 zu verwenden – PHA

Verwandte Themen