Wie bekomme ich nur HTML-Inhalt der Seite in Java?

Ohne die Verwendung einer externen Bibliothek, was ist der einfachste Weg, HTML-Inhalt einer Website in eine Zeichenfolge abzurufen? Ich habe es versucht, aber ich bekomme die komplette Seitenquelle, aber ich möchte nur HTML-Inhalte.Wie bekomme ich nur HTML-Inhalt der Seite in Java?

Quelle

2017-07-11 Ramanand Jha

Wenn Javascript & CSS (etc ...) in die Seite eingebettet ist, gibt es keine Möglichkeit, es manuell zu extrahieren. –

Javascript auf Websites kann in derselben Textdatei wie der Haupt-HTML-Inhalt gespeichert werden. Wenn das der Fall ist, können Sie den Text nur mit Nachdruck zuschneiden, wie @SteveSmith sagte. –

wie man manuell durch den Code extrahiert –

Ich finde es ein bisschen schwierig, dies zu erreichen, mein Freund ohne die Verwendung einer externen lib.

Sie möchten die JavaScript-Teile des Html tatsächlich ausführen und programmatisch wie ein GUI-loser Webbrowser agieren.

Wenn Sie eine externe Bibliothek verwenden, würde ich für http://htmlunit.sourceforge.net/ gehen, die ziemlich einfach ist.

Quelle

2017-07-11 12:03:01

-1

String content = null; 
URLConnection connection = null; 
try { 
    connection = new URL("http://www.google.com").openConnection(); 
    Scanner scanner = new Scanner(connection.getInputStream()); 
    scanner.useDelimiter("\\Z"); 
    content = scanner.next(); 
}catch (Exception ex) { 
    ex.printStackTrace(); 
} 
System.out.println(content);

Quelle

2017-07-11 12:28:56

Ich hatte versucht, dies wird auch die vollständige Seite geben Quelle –

Die obige Lösung mit nur den unkompilierten Quellcode herunterladen und nicht die generierte. –

Wie bekomme ich nur HTML-Inhalt der Seite in Java?

Antwort

Verwandte Themen