2017-11-20 1 views
0

benötigen, um mehr Seiten Daten von der folgenden WebsiteScraping mehr Seiten Eigenschaftsdaten mit Python

https://dubai.dubizzle.com/en/property-for-rent/commercial/office/?page=1

Die Felder Schrott sind zu erhalten „Preis, Beschreibung, Fläche und Lage“ für mehrere Seiten. Ich habe nur den folgenden Code geschrieben. Außerdem weiß ich nicht, wie die Telefonnummer zu analysieren, denn es wird nur angezeigt, wenn Sie die besondere Verbindung

from urllib.request import urlopen 
from bs4 import BeautifulSoup 

file = "Dubizzle.csv" 
f = open(file, "w") 
Headers = "Price,Area,Description,Location,Website\n" 
f.write(Headers) 
for page in range(1, 4): 
    url = "https://dubai.dubizzle.com/en/property-for-rent/commercial/office/?page={}".format(page) 
    html = urlopen(url) 
    soup = BeautifulSoup(html, "html.parser") 
+0

Bitte schauen Sie [hier] (https://stackoverflow.com/help/how-to-ask) wie Sie eine gute Frage in stackoverflow stellen können – athraa

+0

Schauen Sie sich 'requests' und' beautifulsoup' Pakete an etwas ausprobieren. –

Antwort

0

Um die Telefonnummer müssen Sie klicken Sie auf „Telefonnummer anzeigen“ klicken, um zu sehen geöffnet haben , Stimmt. Aber nachdem Sie die Elemente der Seite überprüft haben, können Sie sehen, dass die Telefonnummer bereits vorhanden ist. Sie ist nur versteckt und wird auf der Seite angezeigt, nachdem Sie auf die Schaltfläche geklickt haben.

<img class="phone-num-img" src="data:image/png;base64,... 

Leider ist die Telefonnummer wird als PNG-Bild gehalten, so dass, obwohl es da ist, müssen Sie irgendwie das Bild analysieren, um die Telefonnummer selbst zu bekommen.

+0

Können Sie beim Schreiben des Skripts helfen, um die restlichen Daten zu analysieren: "Preis, Bereich, Beschreibung, Standort" auf mehreren Seiten –

+0

Sagen Sie mir, was genau das Problem verursacht. Kennen Sie BeautifulSoup? Damit sollte es ziemlich einfach sein, Preis, Fläche und Beschreibung zu analysieren. In Bezug auf den Standort existieren GPS-Koordinaten auch in HTML unter Skript-Tags (in den Schlüsseln GOOGLE_MAPS_LONGITUDE und GOOGLE_MAPS_LATITUDE des window.DETAILS_PAGE_MAP_GLOBALS-Objekts). – Akbar