Ich habe Probleme beim Extrahieren von Web-Inhalten mit Jsoup. Das Problem ist, dass ich mehr bekomme, als ich brauche! Hier ist das Format von Web-Inhalten ..Extrahieren von Inhalt mit JSOUP
<td>
<ul>
<li>
<b>
Title
</b>
contents
<p>
<a href="www.somesite.com"><b>LinkText</b></a>
</p>
</li>
</ul>
</td>
Ich versuche, Titel, Inhalt und linktext separat zu extrahieren .. Unter Linktext nicht hart war. Ich habe diesen Code verwendet, um die Daten zu nehmen
Wenn ich versuche, den Inhalt mit diesem Code zu nehmen.
String content = "";
Elements elements;
Document document = Jsoup.connect(url).get();
elements = document.select("td ul li");
for (Element e : elements)
content += "\n" + e.text() + "\n\n";
Ich bekomme alles. (Titel, Inhalt, LinkText). Der Grund für dieses Problem liegt darin, dass alle drei Elemente innerhalb von <li>
liegen. So stellt es jeden Text wieder her. Wie also kann ich sie als verschiedene Strings erhalten? Ich möchte auch die Link- www.www.somesite.com zusammen mit den Daten bekommen ..
https://chrome.google.com/webstore/detail/ selectorgadget/mhjhnkcfbdhnhickkkdbjoemdmbfginb in Betracht ziehen, dieses Werkzeug zu benutzen, sagt es Ihnen das genaue css sel ector für den Artikel, den Sie auswählen. –
Ich arbeite an einer Android App – Pzy64
kein Problem, Css-Selektoren sind nicht plattformabhängig: D –