Ich verwende derzeit die Java XPath-API, um Text aus einem String zu extrahieren.Java XPath API stripping HTML-Tags aus Text
Dieser String hat jedoch oft HTML-Formatierung (<b>
, <em>
, <sub>
, usw.). Wenn ich meinen Code ausführe, werden die HTML-Tags entfernt. Gibt es eine Möglichkeit, dies zu vermeiden?
ist hier ein Abtastwerteingang:
<document>
<summary>
The <b>dog</b> jumped over the fence.
</summary>
</document>
Hier ein Ausschnitt aus meinem Code ist:
XPathFactory factory = XPathFactory.newInstance();
XPath xPath = factory.newXPath();
InputSource source = new InputSource(new StringReader(xml));
String output = xPath.evaluate("/document/summary", source);
Hier ist die aktuelle Ausgabe:
The dog jumped over the fence.
Hier wird der Ausgang I wollen:
The <b>dog</b> jumped over the fence.
Vielen Dank im Voraus für Ihre Hilfe.
Haben Sie die Möglichkeit, die Werte, die die Methode xPath.evaluate (string, var) tut das? Betrachten Sie beispielsweise den xPath-Punktoperator und sehen Sie, ob Sie fett gedruckte Texte vermeiden können. – ElementCR