Gibt es eine Möglichkeit, css-Werte beim Scraping mit Python Scrapy Framework oder durch Verwendung von PHP Scraping Ausschuss. jede Hilfe wird empfohlenScrping css-Werte mit Scrapy-Framework
Antwort
scrapy.Selector ermöglicht es Ihnen, Xpath zu verwenden, um Eigenschaften von HTML-Elementen einschließlich CSS zu extrahieren.
z.B. https://github.com/okfde/odm-datenerfassung/blob/master/crawl/dirbot/spiders/data.py#L83
(schauen Sie sich um diesen Code zu, wie es passt in eine ganze scrapy Spinne)
Wenn Sie Web nicht kriechen und nur HTML-Analyse können Sie XPath direkt von lxml in Python verwenden. Ein weiteres Beispiel:
https://github.com/codeformunich/feinstaubbot/blob/master/feinstaubbot.py
schließlich bei der CSS von XPath zu bekommen nur ich weiß, wie es über CSS zu tun = element.attrib [ ‚Stil‘] - das gibt Ihnen alles, was innerhalb des style-Attributs der Du teilst weiter durch zB css.split (';') und dann jede davon mit ':'.
Es würde mich nicht überraschen, wenn jemand einen besseren Vorschlag hat. Ein wenig Wissen reicht aus, um viel zu kratzen, und so würde ich es basierend auf früheren Projekten angehen.
Ja, überprüfen Sie bitte die Dokumentation für selectors im Grunde haben Sie zwei Methoden response.xpath()
für xpath und response.css()
für css Selektoren. Zum Beispiel eines Titels Text erhalten Sie eine der folgenden tun könnten:
response.xpath('//title/text()').extract_first()
response.css('title::text').extract_first()
- 1. Mit zwei Befehlen (Rohr mit |) mit Laich
- 2. Umgang mit Daten mit MVC mit AngularJS
- 3. mit Vorgänger-Geschwister mit mit xsl: sort
- 4. mit Deklaration mit enum?
- 5. Mit jQuery mit DevExpress
- 6. Mit NodeJS mit Typoskript
- 7. Mit MaterializeCSS mit Aurelia
- 8. mit ffmpeg mit Xcode
- 9. Mit AngularJS mit MeteorJS
- 10. mit Arrays.sort mit Lambda
- 11. Mit OpenBLAS mit GSL
- 12. Mit ImageCaptureCore mit PyObjC
- 13. Mit Konstruktorargumente mit NinjectModule
- 14. mit DBMS_APPLICATION_INFO mit Jboss
- 15. Mit MvxCommand Mit Command
- 16. Mit Supercollider mit Python
- 17. Mit forever.js mit Python
- 18. Mit GraphiQL mit Foxx
- 19. Mit SweetAlert2 mit vis.js
- 20. Mit Promise.all mit Behauptung
- 21. Mit DateTimeFormatter mit ObjectMapper
- 22. Mit DISTINCT mit FIND_IN_SET
- 23. Mit REGEXP_REPLACE mit Leerzeichen
- 24. mit mit elquent Beziehung
- 25. Mit Moles mit System.Reflection
- 26. Probleme mit jQuery Mit
- 27. Mit Parsec mit data.text
- 28. Mit Repo mit msysGit
- 29. Mit html2Canvas mit HighCharts
- 30. Mit javac mit Import
Google ist dein Freund –
Sie Google für die Suche nach solchen Dingen verwenden und diese Website zu nutzen, wenn Sie Fehler erhalten, während sie zu implementieren. – Sachith