2016-05-30 6 views
-4

Ich habe versucht, dies in Java zu tun, aber nicht in der Lage, dies zu erreichen. Ich habe über Google vier Wege gesucht. Sie sind:Wie alle verfügbaren String über eine bestimmte Website zu sammeln

1. jsoup: Java HTML Parser 
2. Apache Nutch 
3. Chrome extension 
4. https://github.com/yasserg/crawler4j google crwler 

jemand mich durch mit einigen Arbeits Code führen kann. Zum Beispiel.

Let's say Given URL is google.com 

dann heraus gesetzt sollte

Sign In 
    Gmail 
    Images 
    Google Search 
    I'm Feeling Lucky 
    Google.co.in offered in 
    हिन्दी 
    ગુજરાતી 
    About 
    Privacy 
    **same way other string that i can see over web page. 
+0

Was tun y ou meinst du, sammelst die Saiten? Bitte erweitern Sie Ihre Frage mit weiteren Details, was Sie versuchen zu erreichen. –

+0

Was hast du bisher? Irgendwelche Codefragmente? – wumpz

+0

@wumpz versuchte mit Beispiel http://stackoverflow.com/questions/27669122/java-web-crawler-for-retreiving-google-search-results, aber hat nicht funktioniert und gerade jetzt versucht dieses eine http: // Blog. miguelgrinberg.com/post/easy-web-scraping-with-nodejs – nand

Antwort

0

sein Ich bin in der Lage den gesamten Text mit Knoten js hier zu extrahieren ist Skript Erster Schritt >> speichern Sie es in eine Datei test.html

var request = require('request'); 

var cheerio = require('cheerio'); 

request('https://www.bajajallianz.com/Corp/new-index.jsp', function (error, response, html) { 

    if (!error && response.statusCode == 200) { 

    console.log(html); 

    } 


}); 

Zweiter Schritt

cat test.html | html-to-text > test.txt 
Verwandte Themen