Ich scrape eine Webseite, die separate div (s) für Kapitelname und Text hat. Ich muss aufzeichnen, welcher Text zu welchem Kapitel gehört. Die Methode, die ich zum Scrappen verwende, besteht darin, Kapitel div tag auszuwählen und alle Elemente durchzulaufen. Dann Text div Tag und Schleife durch alle Textelement. Es gibt weniger Kapitel-Tags als der Text. Das bedeutet, dass es innerhalb eines Kapitels mehrere Texte geben kann. Wie kann ich Kapitel gegen Text speichern? Bitte helfen!Jsoup- So binden Sie zwei nicht verschachtelte div Tags beim scrapen
Mein Jsoup-Code
Elements chapInfos =doc.select("div.chapter");
for(Element chapInfo : chapInfos)
{
Elements tempChap= chapInfo.select("div.chapno");
String ChapterNo = tempChap.text();
}
Elements Texts =doc.select("div.chapterText");
for(Element text : Texts)
{
Elements tempText= text.select("div.EnglishText");
String FinalText = tempText.text();
}
Beispiel Webseite HTML
<div class=chapter>
<div class=chapno>(1)</div>
</div>
<div class=chapterText>
<div class=EnglishText>Some Text</div>
</div>
<div class=chapterText>
<div class=EnglishText>Some Other Text</div>
</div>
<div class=chapter>
<div class=chapno>(2)</div>
</div>