Ich bin neu in scrapy
und XPath
aber Programmierung in Python für irgendwann. Ich möchte die email
, name of the person making the offer
und phone
Nummer von der Seite https://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/
mit scrapy bekommen. Wie Sie sehen, werden die E-Mail und das Telefon als Text innerhalb des Tags <p>
bereitgestellt, was die Extraktion erschwert.Wie bekomme ich die Jobbeschreibung mit scrapy?
Meine Idee ist es, zuerst den Text innerhalb des Job Overview
oder zumindest den gesamten Text zu erhalten reden über diese jeweiligen Job und verwenden ReGex
die email
zu bekommen, phone number
und wenn möglich die name of the person
.
Also habe ich die scrapy shell
mit dem Befehl: scrapy shell https://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/
gefeuert und von dort die response
bekommen.
Jetzt versuche ich den ganzen Text von der div job_description
wo ich eigentlich nichts bekommen. Ich benutzen
full_des = response.xpath('//div[@class="job_description"]/text()').extract()
Die Rückgabe [u'\t\t\t\n\t\t ']
Wie werde ich die gesamte Text von der Seite erwähnt? Offensichtlich wird die Aufgabe danach kommen, um die zuvor erwähnten Attribute zu bekommen, aber, zuerst die Dinge zuerst.
Update: Diese Auswahl liefert nur []
response.xpath('//div[@class="job_description"]/div[@class="container"]/div[@class="row"]/text()').extract()
nach dem div [@ class = "job_description"] sein würde, Sie sofort div gehen [@ class = "container"], so übersprungen Sie ein Element namens "Sektion". Sie können es in der XPath-Abfrage einfügen oder //, z. div [@ class = "job_description"] // div [@ class = "container"]/..... – Borna