Ich schreibe einen Python-Code mit Lxml, Urllib und CSV, um die Sprache in a Brazil government site zu kratzen.Extrahieren von Datum und anderen Daten aus Scraped-Elementen
Ich konnte den Titel und den Link für jede Rede mit XPath finden, aber nicht den genauen Tag, da es für das Datum der Rede kein bestimmtes Tag gibt.
Wenn ich den XPath benutze, bringt der Scraper den Tag, die Stunde und das Wort "Página" (Seite, in Portugiesisch) zurück. Ich weiß, dass Xpath nicht stimmt, aber ich weiß nicht, wie ich nur den Tag auswählen soll.
Auch mit diesem Fehler konnte ich den verschrotteten Inhalt in eine Liste umwandeln und bearbeiten, um alles außer den Tagen zu löschen. Das Problem ist, dass die endgültige Liste, wie Sie unten sehen können, einige andere Zeichen hat, die ich nicht löschen kann.
Hier scheint es zwei Lösungen zu geben: Holen Sie den XPath nach rechts oder bearbeiten Sie die anderen Zeichen in der Liste. Wie kann ich irgendwas von ihnen machen?
['\ n 18/12/2015 \ n', '\ n 21/12/2015 \ n', '\ n 21/12/2015 \ n', '\ n 22/12/2015 \ n ',' \ n 22/12/2015 \ n ',' \ n 22/12/2015 \ n ',' \ n 11/01/2016 \ n ',' \ n 19/01/2016 \ n ' "\ n 21/01/2016 \ n", "\ n 26/01/2016 \ n", "\ n 27/01/2016 \ n", "\ n 27/01/2016 \ n", " \ n 28/01/2016 \ n ',' \ n 01/02/2016 \ n ',' \ n 01/02/2016 \ n ',' \ n 02/02/2016 \ n ',' \ n 02/02/2016 \ n ',' \ n 02/02/2016 \ n ',' \ n 03/02/2016 \ n ',' \ n 03/02/2016 \ n ',' \ n 19/02/2016 \ n ',' \ n 1 9/02/2016 \ n ',' \ n 22/02/2016 \ n ',' \ n 26/02/2016 \ n ',' \ n 26/02/2016 \ n ',' \ n 02/03/2016 \ n ',' \ n 03/03/2016 \ n ',' \ n 04/03/2016 \ n ',' \ n 07/03/2016 \ n ',' \ n 04/02/2016 \ n ',' \ n 08/03/2016 \ n ',' \ n 09/03/2016 \ n ',' \ n 17/03/2016 \ n ',' \ n 18/03/2016 \ n ',' \ n 22/03/2016 \ n ',' \ n 23/03/2016 \ n ',' \ n 23/03/2016 \ n ',' \ n 30/03/2016 \ n ' '\ n 31/03/2016 \ n', '\ n 01.04.2016 \ n']
einfach die weißen Flächen Streifen um '[d.strip() für d in ds]' –