2017-06-10 6 views
0

Ich habe eine HTML-Datei auf meinem Computer. Ich muss die Datei durchgehen und nur den Text daraus extrahieren, der dann an eine Ausgabedatei gesendet werden muss. Ich habe versucht, einfache Methoden wie Regex, aber die Datei ist viel zu kompliziert, so zu tun. Um dies zu demonstrieren, gibt es unten einen kleinen Teil der Datei. Was wäre die beste Lösung dafür? Auch welche Sprache wäre zu empfehlen?Eine HTML-Datei lesen

src="https://apps.ideal-logic.com/files/public/feb81069e2541cc3_4WTF- 
    39PK/small_thumb/no_photo.png" width="100" /> 
    </div></div></div></div></div></td><td align="left" valign="top"><div 
    id="k1e7e1347a6586e16"><div style="margin-left:10px;position:relative;"> 
    <div style="position:relative;"><div id="k61d14cb4bd7c9b1d"><div 
    style="position:relative;"><div style="position:relative;"><div 
    id="k2329528aeb074bce"><div style="position:relative;"><div><div 
    class="L"><b>XXXXXXXXX</b></div></div><div></div></div></div><div 
    id="k4e138f7b9a8cda5f"><div style="position:relative;"></div></div><div 
    id="k734a690c6ec3be3d"><div style="position:relative;"><div 
    style="position:relative;"><div id="k3aef25d5470a3761"><div 
    style="position:relative;"></div></div><div id="kfae5ce53de173253"><div 
    style="position:relative;"><div id="k7e5f871a226c6981"><div><div 
    style="position:relative;"></div></div></div></div></div><div 
    id="kc6b05b0b2907cbd6"><div style="margin- 
    bottom:10px;position:relative;"><div style="position:relative;"><div 
    id="k99d6d517ae2fec1c"><div style="position:relative;"><div><a 
    href="mailto:XXXXXXXXX">[email protected]</a></div><div></div></div> 
    </div><div id="k59ef038775af95ac"><div style="position:relative;"><div> 
    <div></div><div><div><div>XXXXXXXXX (Home)</div></div></div></div> 
    </div></div></div></div></div><div id="k95052b8c903214ae"><div 
    style="margin-bottom:10px;position:relative;"><div><div></div><div><div> 
    <div><span id="s38113de6">XXXXXXXXX<br/>XXXXXXXXX 
    05482</span></div></div></div></div></div></div><div 
    id="k58ea548276b5da0d"><div style="position:relative;"></div></div><div 
    id="kb869465048bdb63a"><div style="margin- 
    bottom:10px;position:relative;"> 

Die gesamte Datei ist so, und ich finde keine Möglichkeit, die Formatierung abzustreifen. Die X sind da, weil es wichtige Daten geben soll, die nicht öffentlich bekannt gegeben werden sollten. Das Endziel davon ist, alle diese in eine CSV-Datei auszugeben, damit sie in ein Excel-Dokument hochgeladen werden können. Gibt es eine Bibliothek oder ein Tool, das das kann?

+1

https://docs.python.org/2 /library/htmlparser.html – sfletche

Antwort

0

Sie Javascript/jQuery (erhältlich in node.js falls Sie eine Back-End-Lösung) verwenden

htmlString=`</div></div></div></div></div></td><td align="left" valign="top"><div 
    id="k1e7e1347a6586e16"><div style="margin-left:10px;position:relative;"> 
    <div style="position:relative;"><div id="k61d14cb4bd7c9b1d"><div 
    style="position:relative;">....` 

text = $(htmlString).text() 

Ergebnis:

Isabel [email protected] 

(802) 497-3311 (Home) 

610 Wake Robin DriveShelburne, Vermont