Ich habe einige HTML und möchte einige Daten davon kratzen.Scrape html befindet sich direkt unter div
Die HTML wird in der folgenden Art und Weise strukturiert
<div class="someClass"><span class="someOtherClass">Text</span></div>
<table>
<tbody>
<tr>
<td>label</td>
<td>data</td>
</tr>
<tr>
<td>label</td>
<td>data</td>
</tr>
<tr>
<td>label</td>
<td>data</td>
</tr>
</tbody>
</table>
<div class="someClass"><span class="someOtherClass">Text</span></div>
<table>
<tbody>
<tr>
<td>label</td>
<td>data</td>
</tr>
<tr>
<td>label</td>
<td>data</td>
</tr>
<tr>
<td>label</td>
<td>data</td>
</tr>
</tbody>
</table>
<div class="someClass"><span class="someOtherClass">Text</span></div>
Ich muss in der Spanne liegt der Lage sein, den Textwert zu kratzen, wo class = „someOtherClass“ (Ich habe diesen Teil bereits umgesetzt)
Ich muss dann in der Lage sein, den Tisch direkt unter dem div zu kratzen. Da das "Eltern" -Div die Tabelle nicht enthält, habe ich einige Probleme bei der Implementierung.
Ihre html scheint nicht fehlerhaft zu sein. htmlagilitypacks HTMLDocument sollte in der Lage sein, die Strukturen zu finden, die Sie aus seinem DOM extrahieren möchten. Haben Sie das versucht? – James
Wenn Sie immer noch Regex verwenden möchten - lesen Sie bitte alle Beiträge in https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/ zuerst. –
@ EitanSeri-Levi - Ich habe Ihren Post bearbeitet, um das _regex_ -Tag und den Regex-Verbage im Post-Body zu entfernen. Bitte akzeptiere die Änderung. Erkenne, dass manche Leute nur bestimmte Tags und Titel überwachen. Bitte versuchen Sie in Zukunft vorsichtiger zu sein. Und ich glaube, es gibt ungefähr eine Million Duplikate von Xpath-Posts. Ich werde dies als ein Duplikat markieren, wenn ich Zeit habe. Viel Glück !! – sln