2016-11-01 3 views
0

Ich schrieb eine Funktion mit Python und Selen BeautifulSoup auf einer URL zu verwenden:bekommen nhl Wertung mit Python

def get_soup(url): 
    d = webdriver.Chrome() 
    d.get(url) 
    result = d.page_source 
    soup = BeautifulSoup(result, 'html.parser') 
    return soup 

Ich versuche, die aktuelle NHL Wertung von dieser URL zu kratzen: https://www.nhl.com/standings/league

I Ich laufe auf 2 Probleme, von denen ich nicht weiß, wie ich umgehen soll:

1) Wenn Sie dieser URL folgen, gelangen Sie auf die Registerkarte "Liga", aber das Scrappen unterscheidet nicht zwischen dieser Registerkarte und der Andere.

2) Die drei Elemente in der Spalte "National Hockey League" (Ranking, Logo, Name) sind drei verschiedene Dinge, aber sie sind in einer einzigen Spalte.

Ich möchte diese Daten in einen Pandas Datenrahmen ziehen.

Antwort

0

Ich schaute mir den Quellcode der Website an und fand die interne NHL-API. Sie können die Rangliste here kratzen. Die einzige Sache, die diese Auflistung nicht hat, ist ein Logo, aber es hat die anderen Sachen, die Sie suchen. Beachten Sie, dass die URL jederzeit geändert werden kann, da sie nicht öffentlich erscheint.

Verwandte Themen