ich derzeit extrahieren den gesamten Text im Inneren des Körpers Tag (ohne Abstand wie \ r \ n) mit dem folgenden Code ausschließen Inhalt innen:Scrapy: Script-Tags im HTML body
full_text = response.xpath('normalize-space(/html/body)').extract()
Das Problem ist dies nimmt JavaScript innerhalb von Script-Tags innerhalb von body auf.
Wissen Sie, wie ich den Inhalt innerhalb von Skript-Tags ausschließen kann?
Ich habe dies zu tun versucht, aber es funktioniert nicht:
full_text = response.xpath('normalize-space(/html/body/*[not(self::script)])').extract()
Jede geschätzt Hilfe.
, dass der Trick funktioniert folgen. Prost –