Ohne die Verwendung einer externen Bibliothek, was ist der einfachste Weg, HTML-Inhalt einer Website in eine Zeichenfolge abzurufen? Ich habe es versucht, aber ich bekomme die komplette Seitenquelle, aber ich möchte nur HTML-Inhalte.Wie bekomme ich nur HTML-Inhalt der Seite in Java?
Antwort
Ich finde es ein bisschen schwierig, dies zu erreichen, mein Freund ohne die Verwendung einer externen lib.
Sie möchten die JavaScript-Teile des Html tatsächlich ausführen und programmatisch wie ein GUI-loser Webbrowser agieren.
Wenn Sie eine externe Bibliothek verwenden, würde ich für http://htmlunit.sourceforge.net/ gehen, die ziemlich einfach ist.
String content = null;
URLConnection connection = null;
try {
connection = new URL("http://www.google.com").openConnection();
Scanner scanner = new Scanner(connection.getInputStream());
scanner.useDelimiter("\\Z");
content = scanner.next();
}catch (Exception ex) {
ex.printStackTrace();
}
System.out.println(content);
Ich hatte versucht, dies wird auch die vollständige Seite geben Quelle –
Die obige Lösung mit nur den unkompilierten Quellcode herunterladen und nicht die generierte. –
- 1. Wie bekomme ich nur in Tagen Java?
- 2. Wie bekomme ich bestimmte Präzisionswerte in Java?
- 3. Wie bekomme ich Sitzungs-ID in Java
- 4. Wie bekomme ich die URL der aktuellen Seite in PHP?
- 5. Wie bekomme ich die URL der aktuellen Seite in C#
- 6. Wie bekomme ich den Inhalt der html-Seite in pdf
- 7. Warum bekomme ich nur den letzten Objektwert in Java ArrayList?
- 8. Wie bekomme ich BackSpace - mit nur Zahlenbeschränkung in der Textbox?
- 9. Wie bekomme ich eine Kontrollgruppe nur in der Kopfzeile?
- 10. Wie bekomme ich den Unterteil der XML-Datei in Java
- 11. Wie bekomme ich echte Stringhöhe in Java?
- 12. Wie bekomme ich die HTML-Quelle von der Seite?
- 13. Wie bekomme ich die aktuelle URL der Seite [0]
- 14. Wie bekomme ich Java boolean in Javascript?
- 15. Wie bekomme ich Java zu Spot-Feldern in der Super-Klasse? nicht nur die eigentliche Klasse
- 16. Wie bekomme ich twitter accessToken von Java?
- 17. Ich bekomme HTML in der XPath-Ausgabe! Wie bekomme ich nur Text?
- 18. Wie bekomme ich einen Projektpfad in Java ..?
- 19. Wie bekomme ich Betriebssystem in Java
- 20. Wie bekomme ich Header-Wert in Java
- 21. Wie bekomme ich das Zeittrennzeichen in Java?
- 22. Wie bekomme ich den unterschied der karten in java?
- 23. Wie bekomme ich die Richtung der TGA-Datei in Java
- 24. Wie bekomme ich die Kapazität der ArrayList in Java?
- 25. Wie bekomme ich die Gesamtzahl der Zeilen in Java?
- 26. Wie bekomme ich Shadow auf UIView nur von der oberen Seite? [Objective-c]
- 27. Dompdf: wie bekomme ich Hintergrundbilder, um nur auf der ersten Seite zu zeigen
- 28. Wie bekomme ich Inhalt von Web-Seite
- 29. Wie bekomme ich den Druck Prieview der Seite mit window.print()?
- 30. Wie bekomme ich pdf von HTML-Seite
Wenn Javascript & CSS (etc ...) in die Seite eingebettet ist, gibt es keine Möglichkeit, es manuell zu extrahieren. –
Javascript auf Websites kann in derselben Textdatei wie der Haupt-HTML-Inhalt gespeichert werden. Wenn das der Fall ist, können Sie den Text nur mit Nachdruck zuschneiden, wie @SteveSmith sagte. –
wie man manuell durch den Code extrahiert –