2017-12-17 3 views
-1

Ich benutze die Twit-API für Node.js und habe meinen Code auf Heroku gehostet, von wo aus er gerade läuft. Ich folgte Daniel Shiffmans Tutorials: http://shiffman.net/a2z/twitter-bots/ und http://shiffman.net/a2z/bot-heroku/Wie benutze ich Javascript in einer Node.js App, um externe Webseiteninformationen zu erhalten?

Ich möchte, dass mein Bot zu https://en.wikipedia.org/wiki/Special:Random geht und den Titel "bekommt". Ich würde dann den Titel als Tweet veröffentlichen. Nach einigen Nachforschungen scheint es, dass ich gerne etwas namens "webscraping" machen würde. Nehmen wir an, der Titel der Wiki-Seite befindet sich im Tag title in der HTML-Datei in der head. Weiß jemand, wie ich auf die URL zugreifen kann, und bekomme die Informationen, die ich brauche? Ich bin mir nicht sicher, wo ich anfangen soll. Suchergebnisse auf stackoverflow führten mich zu veralteten Antworten über die Verwendung von jQuery und einer Yahoo Api. Eine Lösung in Javascript wäre hilfreich, so dass ich weiß, es ist compatabile mit Heroku

Antwort

0

Sie Puppeteer verwenden können, von Google, es zu tun, schauen

Github

Article

+0

Vielen Dank dafür. Es hat sehr gut funktioniert. Genau das, was ich gesucht habe. – notACodeGod

-1

Ich würde empfehlen, einige Cloud-Dienste, die viel Arbeit für Sie erledigen können.

Einige Web-Crawler-Cloud-Services, wo Sie JavaScript verwenden können:

Weitere Sie besuchen können: Quora tread.

+0

Während dieser Link die Frage beantworten kann, ist es besser, die wesentlichen Teile der Antwort hier aufzunehmen und den Link als Referenz zur Verfügung zu stellen. Nur-Link-Antworten können ungültig werden, wenn sich die verknüpfte Seite ändert. - [Aus Bewertung] (/ review/low-quality-posts/18291491) –

Verwandte Themen