ich HTML-Struktur haben, die wie folgt aussieht:JSoup Parsen HTML schlecht strukturierte
<h1>Title</h1>
<h2>Subtitle</h2>
<p>Some text</p>
<p>Some other text</p>
<h1>Some other title</h1>
<h2>Another sub-title</h2>
<p>Some other text</p>
Grundsätzlich in einem einzigen div sie sind Artikel, aber jeder Artikel ist nicht. Was sie auszeichnet, ist das Etikett. Ich bin nur daran interessiert, die Absatztexte zu analysieren, wobei jeder Artikel eine separate Einheit sein sollte.
Worüber ich nachgedacht habe: Holen Sie sich den Container, in dem die Artikel gespeichert sind, suchen Sie den ersten h1-Tag. Beginnen Sie mit dem Parsen aller Elemente, bis wir ein anderes h1-Tag erreichen. Wenn ein neues h1-Tag erreicht ist, verarbeite die zuvor geparsten Daten und starte neu.
Aber ich fragte mich, ob eine einfachere Lösung möglich ist?
FWIW, das ist schon ziemlich einfach. –