2017-07-11 7 views
0

Ohne die Verwendung einer externen Bibliothek, was ist der einfachste Weg, HTML-Inhalt einer Website in eine Zeichenfolge abzurufen? Ich habe es versucht, aber ich bekomme die komplette Seitenquelle, aber ich möchte nur HTML-Inhalte.Wie bekomme ich nur HTML-Inhalt der Seite in Java?

+2

Wenn Javascript & CSS (etc ...) in die Seite eingebettet ist, gibt es keine Möglichkeit, es manuell zu extrahieren. –

+0

Javascript auf Websites kann in derselben Textdatei wie der Haupt-HTML-Inhalt gespeichert werden. Wenn das der Fall ist, können Sie den Text nur mit Nachdruck zuschneiden, wie @SteveSmith sagte. –

+0

wie man manuell durch den Code extrahiert –

Antwort

0

Ich finde es ein bisschen schwierig, dies zu erreichen, mein Freund ohne die Verwendung einer externen lib.

Sie möchten die JavaScript-Teile des Html tatsächlich ausführen und programmatisch wie ein GUI-loser Webbrowser agieren.

Wenn Sie eine externe Bibliothek verwenden, würde ich für http://htmlunit.sourceforge.net/ gehen, die ziemlich einfach ist.

-1
String content = null; 
URLConnection connection = null; 
try { 
    connection = new URL("http://www.google.com").openConnection(); 
    Scanner scanner = new Scanner(connection.getInputStream()); 
    scanner.useDelimiter("\\Z"); 
    content = scanner.next(); 
}catch (Exception ex) { 
    ex.printStackTrace(); 
} 
System.out.println(content); 
+1

Ich hatte versucht, dies wird auch die vollständige Seite geben Quelle –

+0

Die obige Lösung mit nur den unkompilierten Quellcode herunterladen und nicht die generierte. –

Verwandte Themen