2017-08-29 3 views
-1

Ich versuche, die folgende Website-URL-Suchmaschine zu kratzen. Ich bekomme jedoch nur einen Bruchteil des Inhalts zurück.Scraping Website-Suchmaschine mit BeautifulSoup

from urllib.request import urlopen as uReq 
from bs4 import BeautifulSoup 
my_url = 'https://www.kvk.nl/zoeken/#!zoeken&q=ING&index=4&site=kvk2014&start=0' 
uClient = uReq(my_url) 
page_html = uClient.read() 
uClient.close() 

# Data pull 
page_soup = BeautifulSoup(page_html, "html.parser") 

page_soup gibt ein paar Zeilen href, und keine der Informationen, die auf der my_url Seite zur Verfügung steht. Ich bin nur wirklich interessiert an dem ersten Suchergebnis auf der Webseite, also dem vollständigen Namen des Unternehmens: ING Bank N.V., zusammen mit den restlichen Informationen für diese Firma.

+1

Wir können nicht sehen, was Sie bekommen, was Sie erwarten und was fehlt. Können Sie bitte weitere Einzelheiten angeben? – cezar

+0

mehr Details bitte – maestromusica

+0

Die Website enthält Informationen im Suchfeld, die nicht von Beautiful Suppe in der page_soup Objekt aufgenommen wird. Einfach den obigen Code ausführen, der Unterschied ist sofort. –

Antwort

0

der eigentliche Inhalt wird in js Datei versteckt, wie zum Beispiel:

https://zoeken.kvk.nl/search.ashx?callback=jQuery1124043501887376358495_1504000357055&q=ING&index=4&site=kvk2014&start=20&_=1504000357058 

sollten Sie Chrom Debug-Modus verwenden, um alle HTTP-Anfragen zu überprüfen und bekam die realen Daten.