Ich benutze HtmlCleaner Bibliothek für HTML-Content-Extraktion. Es funktioniert fair, aber mit wenigen Einschränkungen.Umgang mit speziellen Entitäten wie & nbsp;, & Pfund; in HtmlCleaner
Es ist nicht in der Lage, Sonderzeichen wie & Pfund oder Anführungszeichen usw. zu handhaben. Für e.x. für url: http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html, Auf geben xpath zu preis, es gibt mir "& Pfund;" anstelle von £
Gibt es eine Eigenschaft, die wir in htmlcleaner für den Umgang mit dieser oder einer anderen Lösung einstellen können.
Dank
Jitendra
Ich wusste nicht über StringEscapeUtils. Danke dafür. Die Content Extraction basiert in meinem Fall auf XPaths. Unterstützt Jsoup das? – RandomQuestion
jsoup unterstützt CSS-Selektoren für die Inhaltsextraktion; sollte tun, was Sie brauchen. –