Ich kam auf etwas wie das, was nicht geklappt hat. Ich versuche, die Texte, die das Schlüsselwort enthalten, allein und nicht den gesamten Text der Webseite zu extrahieren, nur weil die Webseite dieses Schlüsselwort hat.Wie würde ich nur die Texte einer Webseite erhalten, die das benötigte Schlüsselwort mit JSoup enthalten?
String pconcat="";
for (i = 0; i < urls.length; i++) {
Document doc=Jsoup.connect(urls[i]).ignoreContentType(true).timeout(60*1000).get();
for(int x=0;x<keyWords.length;x++){
if(doc.body().text().toLowerCase().contains(keyWords[x].toLowerCase())){
Elements e=doc.select("body:contains("+keyWords[x]+")");
for(Element element : e)
{
pconcat+=element.text();
System.out.println("pconcat"+pconcat);
}
}
}
}
Betrachten example.com, wenn das Schlüsselwort ich für „Dokumente“ sehen ist, muss ich die Ausgabe als „Dieser Bereich hergestellt wird für illustrative Beispiele in Dokumenten verwendet werden.“ und nichts anderes
Beispiel der Eingabe und Ausgabe/Ergebnis, das Sie versuchen zu finden. Im Moment wissen wir nicht genau, wie Sie dieses Ergebnis begrenzen wollen. – Pshemo
Da Sie bereits Text von Seite haben, iterieren Sie einfach über alle Sätze und wählen Sie diejenigen aus, die das Wort enthalten, nach dem Sie suchen. Dies sollte hilfreich sein: http://stackoverflow.com/a/2687929/1393766 – Pshemo
Eigentlich versuche ich eine bestimmte Webseite zu crawlen und Inhalt zu erhalten, die einem bestimmten Schlüsselwort entsprechen. Mehr wie Keyword-bezogenes Web-Crawling. Ihr Ansatz funktionierte gut für diese Seite, aber nicht für alle sicher. Coz mit example.com, es hat nur 2 Satz. Betrachten Sie eine zufällige Webseite mit Links, Menüs, Tabs, diese Vorgehensweise scheint nicht angemessen. Irgendeine Idee? – Lalitha