Ich habe ein kleines Beispielprogramm, das einige Informationen aus einem HTML-Dokument extrahiert.jSoup entblößt meine HTML-Entitäten nicht richtig
import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class TestSoup {
public static void main(String[] args) {
String html = "<p>An <a href='http://example.com/'><b>exa mple</b></a> link.</p>";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();
String linkText = link.text(); // "example""
System.out.println(linkText);
}
}
Wenn Sie mit jSOup gearbeitet haben, wissen Sie, dass der Ausgang dieses exa mple
sein sollte, aber der Ausgang ist exaámple
. Warum entzieht jSoup meine HTML-Entitäten nicht korrekt oder mache ich das einfach falsch?
Alle meine HTML-Entitäten erhalten unescaped falsch und nicht nur