Ich muss Web-Scraper-Dienstprogramm erstellen, die Web-Ressourcen per URL erhalten. Zählen Sie dann die Anzahl der Wortvorkommen auf der Webseite und die Anzahl der Zeichen.Parse HTML (Web-Seite) JavaSE
URL url = new URL(urlStr);
URLConnection connection = url.openConnection();
InputStream inputStream = connection.getInputStream();
BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream,"UTF-8"));
Damit ich den gesamten Text auf der Seite (und HTML-Tags) bekommen so, was ich als nächstes tun?
Kann mir jemand dabei helfen? Etwas Doc oder Sthg zum Lesen. Ich brauche nur JavaSE. Die 3D-Party-Bibliothek kann nicht verwendet werden.
warum genau? Bei so vielen Bibliotheken * ist das Rad neu zu erfinden in der Regel eine schlechte Wahl. –
@Shashwat Ich verstehe das und weiß über jsoup und andere. Aber es ist ein Testfall. Sie sagen "Tipps: - Verwenden Sie keine Drittanbieter-Bibliotheken" und ich stimme Ihnen zu. Nach 5 Stunden fand ich keine gute Antwort für diese Aufgabe. –
Durch HTMLEditorKit versucht, aber ist das richtig? –