Dies könnte eine der Fragen sein, die schwer zu beantworten, aber hier geht:Der beste Weg für ein Anfänger-Bildschirm von Python Schaben lernen
halte ich nicht für meinen Selbst Programmierer - aber ich mag: -) Ich habe R gelernt, weil ich Spss satt hatte, und weil ein Freund mich in die Sprache eingeführt hat - ich bin also kein Fremder in der Programmierlogik.
Jetzt möchte ich Python lernen - in erster Linie um Scraping und Textanalyse zu screenen, aber auch um Webapps mit Pylons oder Django zu schreiben.
Also: Wie sollte ich lernen, Bildschirm Scrape mit Python zu lernen? Ich fing an, durch die scrappy docs zu gehen, aber ich fühle zu viel "Magie" geht - schließlich - versuche ich zu lernen, nicht nur zu tun.
Auf der anderen Seite: Es gibt keinen Grund, das Rad neu zu erfinden, und wenn Scrapy Screen Scraping ist, was Django zu Webseiten ist, dann könnte es sich schließlich lohnen, direkt in Scrapy zu springen. Was denken Sie?
Oh - BTW: Die Art von Screen Scraping: Ich will Zeitungsseiten (dh ziemlich komplex und groß) für Erwähnungen von Politikern etc. kratzen - Das bedeutet, dass ich täglich, inkrementell und rekursiv kratzen muss - und ich brauche um die Ergebnisse in einer Datenbank zu speichern - was mich zu einer Bonusfrage führt: Alle reden über nonSQL DB. Sollte ich lernen, z.B. mongoDB sofort (ich glaube nicht, dass ich starke Konsistenz brauche), oder ist das dumm für das, was ich tun will?
Vielen Dank für irgendwelche Gedanken - und ich entschuldige mich, wenn dies zu allgemein ist eine Programmierfrage zu sein.
Eine Sache, die Ihnen hilft, gute Scraper zu erstellen, ist das Wissen über HTTP/Web (Cookies, Redirections, ...);) –
Keine direkte Antwort auf Ihre Frage, aber Sie sollten dies überprüfen Video: https://www.youtube.com/watch?v=52wxGESwQSA es deckt viele der fortgeschrittenen Themen über screenscraping ab. Es kommt aus der Perspektive von Python, aber in den meisten Fällen macht es es in Bezug auf die Theorie und ist weitgehend sprachunabhängig. –