2017-02-09 2 views
0

Ich benutze Beautifulsoup mit Python. Ich versuche, Elemente von einem Link mit einem Hash # zu bekommen. Es ist ein Seitenumbruch Link, der Teil nach dem # ist die Seitenzahl.Beautifulsoup und Link mit einem Hash #

Es funktioniert nicht, ich verstehe das Problem, weil urllib2 kann nicht damit umgehen, da der Teil der URL nach der # ist für die clientseitige Handhabung und wird nie an den Server gesendet.

So überprüfte ich die reale URL der Registerkarte Netzwerk der Entwickler-Tools in Chrome und es gibt mir dies:

http://www.myserver.com/modules/blocklayered/blocklayered-ajax.php?_=1486617675431&id_category_layered=24&layered_weight_slider=0_10&layered_price_slider=21_2991&orderby=position&orderway=desc&n=20&p=3

Es sieht aus wie der Server nicht diese URL überhaupt, weil es nicht mag gibt mir eine leere Seite zurück, die nur dieses seltsame Ergebnis enthält: {"filtersBlock":"\n\n

Also meine Frage ist, gibt es eine Möglichkeit, diese Art von Verbindung mit BeautifulSoup zu behandeln?

+0

Ich habe einen Weg gefunden, dies mit BeautifulSoup zu tun, um das DOM und Selen zu crawlen, um diese Links zu handhaben, die ein # enthalten. Übergeben Sie einfach den Link, der den # zu Selenium-Treiber mit 'driver.get (" www.myserver.com/products#/page-2 ") enthält. – Laurent

Antwort

0

Ich habe einen Weg gefunden, dies mit BeautifulSoup zu tun, um das DOM und Selen zu crawlen, um diese Links zu handhaben, die ein # enthalten. Übergeben Sie einfach den Link mit dem # zu Selenium-Treiber mit driver.get("www.myserver.com/products#/page-2") funktioniert.

Verwandte Themen