Ich habe eine HTML-Datei auf meinem Computer. Ich muss die Datei durchgehen und nur den Text daraus extrahieren, der dann an eine Ausgabedatei gesendet werden muss. Ich habe versucht, einfache Methoden wie Regex, aber die Datei ist viel zu kompliziert, so zu tun. Um dies zu demonstrieren, gibt es unten einen kleinen Teil der Datei. Was wäre die beste Lösung dafür? Auch welche Sprache wäre zu empfehlen?Eine HTML-Datei lesen
src="https://apps.ideal-logic.com/files/public/feb81069e2541cc3_4WTF-
39PK/small_thumb/no_photo.png" width="100" />
</div></div></div></div></div></td><td align="left" valign="top"><div
id="k1e7e1347a6586e16"><div style="margin-left:10px;position:relative;">
<div style="position:relative;"><div id="k61d14cb4bd7c9b1d"><div
style="position:relative;"><div style="position:relative;"><div
id="k2329528aeb074bce"><div style="position:relative;"><div><div
class="L"><b>XXXXXXXXX</b></div></div><div></div></div></div><div
id="k4e138f7b9a8cda5f"><div style="position:relative;"></div></div><div
id="k734a690c6ec3be3d"><div style="position:relative;"><div
style="position:relative;"><div id="k3aef25d5470a3761"><div
style="position:relative;"></div></div><div id="kfae5ce53de173253"><div
style="position:relative;"><div id="k7e5f871a226c6981"><div><div
style="position:relative;"></div></div></div></div></div><div
id="kc6b05b0b2907cbd6"><div style="margin-
bottom:10px;position:relative;"><div style="position:relative;"><div
id="k99d6d517ae2fec1c"><div style="position:relative;"><div><a
href="mailto:XXXXXXXXX">[email protected]</a></div><div></div></div>
</div><div id="k59ef038775af95ac"><div style="position:relative;"><div>
<div></div><div><div><div>XXXXXXXXX (Home)</div></div></div></div>
</div></div></div></div></div><div id="k95052b8c903214ae"><div
style="margin-bottom:10px;position:relative;"><div><div></div><div><div>
<div><span id="s38113de6">XXXXXXXXX<br/>XXXXXXXXX
05482</span></div></div></div></div></div></div><div
id="k58ea548276b5da0d"><div style="position:relative;"></div></div><div
id="kb869465048bdb63a"><div style="margin-
bottom:10px;position:relative;">
Die gesamte Datei ist so, und ich finde keine Möglichkeit, die Formatierung abzustreifen. Die X sind da, weil es wichtige Daten geben soll, die nicht öffentlich bekannt gegeben werden sollten. Das Endziel davon ist, alle diese in eine CSV-Datei auszugeben, damit sie in ein Excel-Dokument hochgeladen werden können. Gibt es eine Bibliothek oder ein Tool, das das kann?
https://docs.python.org/2 /library/htmlparser.html – sfletche