Ich benutze BeautifulSoup, um HTML über lxml
Parser zu analysieren. Aber ich stieß auf eine Datei, die keine schließenden Tags in einem <table>
hat:Handle fehlerhafte HTML (keine schließenden Tags)
<table id='reportTable' class='report-table' style='width:auto' cellspacing='0'><tr>
<th>Номер<br>поезда<th>Дата<br>отправления<th>Маршрут<th>Причина<th>Комментарий<th>Станция ...
Obwohl die <table>
Tag richtig geschlossen ist.
Versuchen Sie es bereits ohne Erfolg zu analysieren? Der halbe Punkt eines HTML-Parsers ist, dass er schlecht formatierte HTML genauso tolerieren kann wie ein Browser. Fehlende schließende Tags sollten kein Problem darstellen. –
@C.Feenstra erkennt einige 'td's, scheitert aber oft daran, sich zu teilen. Ich werde versuchen, eine Beispieldatei später – Winand