Ich hatte gehofft, etwas Hilfe zu bekommen, wie ich ein Programm angehen sollte, das ich versucht habe, ein paar Mal jetzt zu schreiben.Zeichnen einer Box um Sub-Strings eines Dokuments
Ich habe eine Reihe von Ordnern. In jedem Ordner befindet sich eine HTML-Datei und eine TXT-Datei, die Text in der HTML-Datei enthält und alle HTML-Tags entfernt.
Als Beispiel kann eine vereinfachte HTML-Datei
<html><head></head><body><p>This is some <b>text</b></p><p>Please ignore me</p></body></html>
Und innerhalb einer .txt im selben Ordner sein, ich habe "Dies ist ein Text".
Aus diesen beiden Dateien, ich möchte eine neue Datei erstellen, die eine HTML mit einem Kasten um gezeichnet ist „Dies ist ein Text“, etwa so:
Das offensichtliche Problem hier ist dass die hübsch gedruckten Textdateien kein Markup enthalten und es daher schwierig ist, sie im HTML-Dokument zu finden.
Meine Idee war bisher:
-Speichern der TXT-Inhalte in einer Variablen. -Grab die HTML-Inhalte, Streifen aller HTML-Tags:
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
Ich bin nicht sicher, wie von diesem Punkt zu gelangen. Ich meine ... Ich könnte versuchen, ein Div mit einer Klasse um den Text hinzuzufügen, und fügen Sie dann einen Rahmen Stil ... aber wie finde ich die Sub-String im HTML zuverlässig, behält alle Markup innerhalb der HTML?
Ich bin sicher es gibt einen einfachen Weg dies zu tun und ich überlege es nur, ich würde normalerweise mit einem Freund darüber reden und es lösen, aber jeder scheint offline zu sein - also komme ich zu dir Anleitung hier.
Kann mir jemand bitte ein Feedback geben? Vielen Dank.
dies helfen kann: https://jsoup.org/cookbook/modifying-data/set-html – Bill