2016-05-04 6 views
0

Ich versuche, diese Webseite zu crawlen: http://www.bbc.com/earth/columns/record-breakers. Wenn ich versuche, alle verfügbaren Links zu erhalten, gibt mein Programm nur einen Teil des tatsächlichen Links zurück.Java Jsoup Extrahierung "alt"

Wie Sie auf dem Bild sehen können, enthält der href-Attributwert nur einen Teil des tatsächlichen Links. Wenn ich auf der Website mit der Maus über den Artikel gehe, erscheint in der linken unteren Ecke des Bildschirms ein kleines Kästchen mit dem richtigen Link.

Ich habe nicht so viel Wissen in HTML, aber ich habe gerade gelernt, dass das "Alt" -Attribut genannt wird, also meine Frage ist, wie ich diese Informationen in der linken Ecke mit Jsoup bekommen kann?

enter image description here

Antwort

1

Verwenden Sie die abs: Attribut Präfix eine absolute URL von einem Attribut zu lösen. Beispiel für die obige Seite:

public static void main (String []args) throws IOException { 

    Document doc = Jsoup.connect("http://www.bbc.com/earth/columns/record-breakers").get(); 
    Elements link = doc.select("div.promo-unit-header a");  

    for(Element e : link){ 
     System.out.println(e.attr("abs:href"));      
    }  

} 
+0

es funktionierte jetzt, danke :) – imoteb