Ich würde gerne wissen, ob es etwas wie Scrapy für nodejs gibt? Wenn nicht, was denkst du über das einfache Herunterladen und Parsen der Seite mit cheerio? Gibt es einen besseren Weg?Scrapy wie Werkzeug für Nodejs?
Antwort
Ich habe keine so starke Lösung zum Crawlen/Indizieren ganzer Websites wie Scrapy in Python gesehen, also benutze ich Python Scrapy zum Crawlen von Websites.
Aber zum Schaben von Daten von Seiten gibt es casperjs in nodejs. Es ist eine sehr coole Lösung. Es funktioniert auch für Ajax-Websites, z.B. angular-js Seiten. Python Scrapy kann Ajax-Seiten nicht analysieren. So für das Kratzen von Daten für eine oder wenige Seiten bevorzuge ich CasperJs.
Cheerio ist wirklich schneller als Casperjs, aber es funktioniert nicht mit Ajax-Seiten und es hat keine so gute Struktur eines Codes wie Casperjs. So bevorzuge ich Casperjs, auch wenn Sie Cheerio-Paket verwenden können.
Coffee-Skript Beispiel:
casper.start 'https://reports.something.com/login', ->
this.fill 'form',
username: params.username
password: params.password
, true
casper.thenOpen queryUrl, {method:'POST', data:queryData}, ->
this.click 'input'
casper.then ->
get = (number) =>
value = this.fetchText("tr[bgcolor= '#AFC5E4'] > td:nth-of-type(#{number})").trim()
Nur für den Fall, dass Sie noch eine Antwort benötigen, https://www.npmjs.org/package/scrapy Ich habe es nie getestet, aber ich denke, es kann helfen. Happy Scrapping.
- 1. Linting-Werkzeug für Lua
- 2. RedbeanPHP wie für nodejs
- 3. Irgendein RSpec wie Werkzeug für Erlang?
- 4. wenig XPath für scrapy
- 5. Paketabhängigkeiten für Scrapy installieren
- 6. Werkzeug für die Bibliothek Abhängigkeit
- 7. Auto-Formatierung Werkzeug für VBscript
- 8. Wie benutze ich scrapy-jsonrpc mit Scrapy
- 9. Django benutzerdefinierte Management-Befehl ausgeführt Scrapy: Wie Scrapy-Optionen enthalten?
- 10. BeautifulSoup wie Schaber für NodeJS
- 11. Wie in scrapy
- 12. Scrapy Returning 301 für reddit.com
- 13. Proxy-IP für Scrapy-Framework
- 14. gehen Werkzeug: kein solches Werkzeug "Tour"
- 15. Scrapy Shell und Scrapy Splash
- 16. JavaDoc-ähnliches Werkzeug für SQL-Skripte
- 17. Ist ein Werkzeug für das Flussdiagramm verfügbar?
- 18. 'Encapsulate Field' Werkzeug für eine PHP IDE
- 19. Bedarf an Werkzeug für die Videoverarbeitung
- 20. REPL Werkzeug für eckig/Jasmin/Karma
- 21. Wie forma Scrapy exportiert
- 22. Das beste Werkzeug für Software System Diagrammerstellung
- 23. Werkzeug für die Erstellung von Software
- 24. das beste Werkzeug für den Countdown?
- 25. Grafisches Werkzeug für das kürzeste Pfadproblem?
- 26. Gutes Werkzeug für Systemdesign in Java/Eclipse?
- 27. Welches Werkzeug/Framework für die technische Dokumentation?
- 28. Spy ++ - ähnliches Werkzeug für OpenGL - Renderbäume
- 29. Gibt es ein Werkzeug für das Regressionsmodell?
- 30. Smook etl Werkzeug für b2b xml edi
Dieses Modul nicht konfiguriert werden kann. Es gibt nur Geschäftsname und Telefon zurück. Ich fand eine mögliche Lösung nicht so performant wie Scrappy. aber mit Cheerio wäre es möglich, die Seite zu manipulieren. genau wie mit Jquery. – user2422940