Python regulären Ausdruck übereinstimmen in HTML-Datei

Ich versuche, in eine HTML-Datei übereinstimmen. Dies ist der html:Python regulären Ausdruck übereinstimmen in HTML-Datei

<td> 
<b>BBcode</b><br /> 
<textarea onclick='this.select();' style='width:300px;  height:200px;' /> 
[URL=http://someimage.com/LwraZS1]   [IMG]http://t1.someimage.com/LwraZS1.jpg[/IMG][ [/URL] [URL=http://someimage.com/CDnuiST] [IMG]http://t1.someimage.com/CDnuiST.jpg[/IMG] [/URL] [URL=http://someimage.com/Y0oZKPb][IMG]http://t1.someimage.com/Y0oZKPb.jpg[/IMG][/URL] [URL=http://someimage.com/W2RMAOR][IMG]http://t1.someimage.com/W2RMAOR.jpg[/IMG][/URL] [URL=http://someimage.com/5e5AYUz][IMG]http://t1.someimage.com/5e5AYUz.jpg[/IMG][/URL] [URL=http://someimage.com/EWDQErN][IMG]http://t1.someimage.com/EWDQErN.jpg[/IMG][/URL] 
</textarea> 
</td>

Ich möchte alle BB-Code von [zu] enthalten enthalten.

Und dies ist mein Code:

import re 
x = open('/xxx/xxx/file.html', 'r').read 
y = re.compile(r"""<td> <b>BBcode</b><br /><textarea onclick='this.select();' style='width:300px; height:200px;' />. (. *) </textarea> </td>""") 
z = y.search(str(x()) 
print z

Aber wenn ich das i Objekt erhalten Keine laufen ... Wo ist der Fehler?

Quelle

2016-04-16 Andrew Stef

vergessen paren 'read()'. –

Nichts, immer noch eine None .. Vielleicht ist die Regex falsch .. –

Yeah, gepostet eine answer.check. –

Ich würde einen Parser für diese verwenden:

from html import HTMLParser 

class MyHtmlParser(HTMLParser): 
    def __init__(self): 
     self.reset() 
     self.convert_charrefs = True 
     self.dat = [] 
    def handle_data(self, d): 
     self.dat.append(d.strip()) 
    def return_data(self): 
     return self.dat 
>>> with open('sample.html') as htmltext: 
     htmldata = htmltext.read() 
>>> parser = MyHtmlParser() 
>>> parser.feed(htmldata) 
>>> res = parser.return_data() 
>>> res = [item for item in filter(None, res)] 
>>> res[0] 
'BBcode' 
>>>

Quelle

2016-04-16 14:59:14

Danke für Ihre Antwort! Eigentlich, wenn ich dieses Skript ausführen und versuchen, res [0] zu drucken, bekomme ich diesen Teil des html: box-shadow { -moz-box-shadow: 3px 3px 5px # 000000; -webkit-box-shadow: 3px 3px 5px # 000000; Box-Schatten: 3px 3px 5px # 000000; } –

Oh vergiss, ich musste 4. Argument drucken. Genau was ich brauchte. Danke vielmals! Eine letzte Sache, wie kann ich die Ausgabe in eine Datei schreiben !? –

Als einfache Textdatei: 'mit open ('filename.txt', 'w') als newfile: newfile.write (res [0])' –

Ich denke, Sie müssen etwas wie z.group() hinzufügen, um aus dem Regex-Objekt, nicht wahr? Also, nur wenn Sie Ihre letzte Zeile zu

Druck z.group()

könnte es tun.

Quelle

2016-04-16 07:44:33 coralvanda

import re 
x = open('/xxx/xxx/file.html', 'rt').read() 
r1 = r'<textarea.*?>(.*?)</textarea>' 
s1 = re.findall(r1, s, re.DOTALL)[1] # just by inspection 
r2 = r'\[(.*?)\]' 
s2 = re.findall(r2, s1) 
for u in s2: 
    print(u)

Quelle

2016-04-16 07:51:00

Danke, es funktioniert, aber es bekommt einen anderen Teil des HTML, weil sein Alles innerhalb . Ich habe die Frage mit der ganzen HTML-Textdatei aktualisiert. Danke für die Hilfe übrigens !! – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+1</span></div> <div class="col-lg-11"> <p class="commenttext">@AndrewStef Können Sie eine erwartete Ausgabe anzeigen? Bei Regex-Problemen ist es immer hilfreich. – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">Die erwartete Ausgabe sollte sein [URL = http: //seimeimage.com/LwraZS1] [IMG] http://t1.someimage.com/LwraZS1.jpg [/ IMG] [[/ URL] [URL = http: // someingage.com/CDnuiST] [IMG] http://t1.someimage.com/CDnuiST.jpg [/ IMG] [/ URL] ... Dies genau. Die Seite ist die Ausgabe von hochgeladenen Dateien von someimage.com. Ich versuche den BBCODE zwischen [und] Text zu fangen. – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">Verwandte Themen</div> <ul class="relative_list"> <li> 1. <a href="http://de.voidcc.com/question/p-dlljlpro-cg.html" target="_blank" title="Python regulären Ausdruck Hilfe"> Python regulären Ausdruck Hilfe </a> </li> <li> 2. <a href="http://de.voidcc.com/question/p-afgyetex-k.html" target="_blank" title="Python regulären Ausdruck Komma"> Python regulären Ausdruck Komma </a> </li> <li> 3. <a href="http://de.voidcc.com/question/p-vhdjvfhq-p.html" target="_blank" title="regulären Ausdruck"> regulären Ausdruck </a> </li> <li> 4. <a href="http://de.voidcc.com/question/p-zdzpciua-bc.html" target="_blank" title="Spiel Datum mit Python regulären Ausdruck"> Spiel Datum mit Python regulären Ausdruck </a> </li> <li> 5. <a href="http://de.voidcc.com/question/p-qaiousnw-dv.html" target="_blank" title="regulären Ausdruck is_fraction: Python: regex"> regulären Ausdruck is_fraction: Python: regex </a> </li> <li> 6. <a href="http://de.voidcc.com/question/p-wwgpgvrj-db.html" target="_blank" title="MySQL regulären Ausdruck entspricht"> MySQL regulären Ausdruck entspricht </a> </li> <li> 7. <a href="http://de.voidcc.com/question/p-vxgtluse-be.html" target="_blank" title="übereinstimmende mehrere Zeile in regulären Python-Ausdruck"> übereinstimmende mehrere Zeile in regulären Python-Ausdruck </a> </li> <li> 8. <a href="http://de.voidcc.com/question/p-pjcxcsiy-bo.html" target="_blank" title="regulären Ausdruck in glob.glob von Python mit"> regulären Ausdruck in glob.glob von Python mit </a> </li> <li> 9. <a href="http://de.voidcc.com/question/p-hharbyrf-k.html" target="_blank" title="Was bedeutet "?:" In einem regulären Python-Ausdruck?"> Was bedeutet "?:" In einem regulären Python-Ausdruck? </a> </li> <li> 10. <a href="http://de.voidcc.com/question/p-xxetpslz-s.html" target="_blank" title="Python: Format-String in regulären Ausdruck konvertieren"> Python: Format-String in regulären Ausdruck konvertieren </a> </li> <li> 11. <a href="http://de.voidcc.com/question/p-ppbirvhl-bt.html" target="_blank" title="PHP regulären Ausdruck, um Zeilen mit einem Sonderzeichen übereinstimmen"> PHP regulären Ausdruck, um Zeilen mit einem Sonderzeichen übereinstimmen </a> </li> <li> 12. <a href="http://de.voidcc.com/question/p-pbrtuvqy-p.html" target="_blank" title="Javascript regulären Ausdruck Alternation"> Javascript regulären Ausdruck Alternation </a> </li> <li> 13. <a href="http://de.voidcc.com/question/p-pxsaejvd-cd.html" target="_blank" title="regulären Ausdruck"> regulären Ausdruck </a> </li> <li> 14. <a href="http://de.voidcc.com/question/p-tzoimwzq-k.html" target="_blank" title="Python - Probleme mit regulären Ausdruck und Unicode"> Python - Probleme mit regulären Ausdruck und Unicode </a> </li> <li> 15. <a href="http://de.voidcc.com/question/p-psezsyvp-bb.html" target="_blank" title="Was bedeutet [^.] * Im regulären Ausdruck?"> Was bedeutet [^.] * Im regulären Ausdruck? </a> </li> <li> 16. <a href="http://de.voidcc.com/question/p-ekmsouxv-y.html" target="_blank" title="Python regulären Ausdruck für schöne Suppe"> Python regulären Ausdruck für schöne Suppe </a> </li> <li> 17. <a href="http://de.voidcc.com/question/p-oagipaia-ep.html" target="_blank" title="Python regulären Ausdruck ein Bild Pfad"> Python regulären Ausdruck ein Bild Pfad </a> </li> <li> 18. <a href="http://de.voidcc.com/question/p-tcpcarah-db.html" target="_blank" title="Python-Extrakt Nummer aus String regulären Ausdruck"> Python-Extrakt Nummer aus String regulären Ausdruck </a> </li> <li> 19. <a href="http://de.voidcc.com/question/p-tfalfraf-dz.html" target="_blank" title="nltk regulären Ausdruck tokenizer"> nltk regulären Ausdruck tokenizer </a> </li> <li> 20. <a href="http://de.voidcc.com/question/p-oiegswzs-g.html" target="_blank" title="Python regulären Ausdruck Teil eines abgestimmten Schnur"> Python regulären Ausdruck Teil eines abgestimmten Schnur </a> </li> <li> 21. <a href="http://de.voidcc.com/question/p-eafdisuy-bv.html" target="_blank" title="Regulärer Ausdruck: Domäne in URI übereinstimmen"> Regulärer Ausdruck: Domäne in URI übereinstimmen </a> </li> <li> 22. <a href="http://de.voidcc.com/question/p-usuwsorg-cw.html" target="_blank" title="Python regulären Ausdruck Suche hat unerwünschte Zeichen"> Python regulären Ausdruck Suche hat unerwünschte Zeichen </a> </li> <li> 23. <a href="http://de.voidcc.com/question/p-pzuhfzmw-bt.html" target="_blank" title="Python und regulären Ausdruck mit Unicode"> Python und regulären Ausdruck mit Unicode </a> </li> <li> 24. <a href="http://de.voidcc.com/question/p-kibnreve-dq.html" target="_blank" title="HTML-Parsing mit Python regulären Ausdruck"> HTML-Parsing mit Python regulären Ausdruck </a> </li> <li> 25. <a href="http://de.voidcc.com/question/p-pemzptil-dn.html" target="_blank" title="Split von Suffix mit regulären Ausdruck Python"> Split von Suffix mit regulären Ausdruck Python </a> </li> <li> 26. <a href="http://de.voidcc.com/question/p-rdxwkqou-cc.html" target="_blank" title="Netbeans ersetzen in Projekten regulären Ausdruck"> Netbeans ersetzen in Projekten regulären Ausdruck </a> </li> <li> 27. <a href="http://de.voidcc.com/question/p-kzwoavnk-dc.html" target="_blank" title="Python regulären Ausdruck re.search (R "([az] + [AZ] + [0-9] +)", Passwort)"> Python regulären Ausdruck re.search (R "([az] + [AZ] + [0-9] +)", Passwort) </a> </li> <li> 28. <a href="http://de.voidcc.com/question/p-wzjmmoqf-dx.html" target="_blank" title="Bash regulären Ausdruck mit Anführungszeichen"> Bash regulären Ausdruck mit Anführungszeichen </a> </li> <li> 29. <a href="http://de.voidcc.com/question/p-diahlnwh-cv.html" target="_blank" title="Regelmäßige Muster Ausdruck übereinstimmen"> Regelmäßige Muster Ausdruck übereinstimmen </a> </li> <li> 30. <a href="http://de.voidcc.com/question/p-bxkhlktq-d.html" target="_blank" title="Java regulärer Ausdruck übereinstimmen"> Java regulärer Ausdruck übereinstimmen </a> </li> </ul> </div> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3534119089"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img2.voidcc.com/voidso/script/side.js?t=1652515422091"></script> <script type="text/javascript" src="http://img2.voidcc.com/voidso/plugin/highlight/highlight.pack.js"></script> <link href="http://img2.voidcc.com/voidso/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>  <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3862022848" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> Letzte Frage </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://de.voidcc.com/question/p-qhrffnuo-og.html" target="_blank" title="Wie funktioniert Verschachtelung Null Koaleszenz-Operator (??) in PHP? Schritt-für-Schritt Benötigen Erklärung der Ausführung fließt"> Wie funktioniert Verschachtelung Null Koaleszenz-Operator (??) in PHP? Schritt-für-Schritt Benötigen Erklärung der Ausführung fließt </a> </li> <li class="side_article_list_item"> 2. <a href="http://de.voidcc.com/question/p-enqknlzh-oh.html" target="_blank" title="Kleinstes Element im Baum, das größer ist als x"> Kleinstes Element im Baum, das größer ist als x </a> </li> <li class="side_article_list_item"> 3. <a href="http://de.voidcc.com/question/p-wzhnsagm-oh.html" target="_blank" title="Installation auf httpdocs in Ubuntu"> Installation auf httpdocs in Ubuntu </a> </li> <li class="side_article_list_item"> 4. <a href="http://de.voidcc.com/question/p-kcninqym-om.html" target="_blank" title="Mongoose ORM async erwarten"> Mongoose ORM async erwarten </a> </li> <li class="side_article_list_item"> 5. <a href="http://de.voidcc.com/question/p-cncreoym-ok.html" target="_blank" title="Docker-compose Transfer mysql auf einen anderen Host"> Docker-compose Transfer mysql auf einen anderen Host </a> </li> <li class="side_article_list_item"> 6. <a href="http://de.voidcc.com/question/p-eopclauo-nx.html" target="_blank" title="Kann externe API (IBM Watson) nicht in Unity C# über HTTP-Anforderung aufgerufen werden?"> Kann externe API (IBM Watson) nicht in Unity C# über HTTP-Anforderung aufgerufen werden? </a> </li> <li class="side_article_list_item"> 7. <a href="http://de.voidcc.com/question/p-phmxspmz-oa.html" target="_blank" title="komplette webscraping mit beautifulsoup"> komplette webscraping mit beautifulsoup </a> </li> <li class="side_article_list_item"> 8. <a href="http://de.voidcc.com/question/p-atgwnris-oa.html" target="_blank" title="Javascript Benutzereingaben nach einer Eingabeaufforderung anzeigen"> Javascript Benutzereingaben nach einer Eingabeaufforderung anzeigen </a> </li> <li class="side_article_list_item"> 9. <a href="http://de.voidcc.com/question/p-gwotlqwk-oa.html" target="_blank" title="Fehler: keine übereinstimmende Funktion für Anruf zu Cargaison :: cargaison()"> Fehler: keine übereinstimmende Funktion für Anruf zu Cargaison :: cargaison() </a> </li> <li class="side_article_list_item"> 10. <a href="http://de.voidcc.com/question/p-glyulfpg-nz.html" target="_blank" title="Python Multiprocessing mit parallelen Speichern in netCDF4 Datei"> Python Multiprocessing mit parallelen Speichern in netCDF4 Datei </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> Verwandte Themen</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://de.voidcc.com/question/p-dlljlpro-cg.html" target="_blank" title="Python regulären Ausdruck Hilfe"> Python regulären Ausdruck Hilfe </a> </li> <li class="side_article_list_item"> 2. <a href="http://de.voidcc.com/question/p-afgyetex-k.html" target="_blank" title="Python regulären Ausdruck Komma"> Python regulären Ausdruck Komma </a> </li> <li class="side_article_list_item"> 3. <a href="http://de.voidcc.com/question/p-vhdjvfhq-p.html" target="_blank" title="regulären Ausdruck"> regulären Ausdruck </a> </li> <li class="side_article_list_item"> 4. <a href="http://de.voidcc.com/question/p-zdzpciua-bc.html" target="_blank" title="Spiel Datum mit Python regulären Ausdruck"> Spiel Datum mit Python regulären Ausdruck </a> </li> <li class="side_article_list_item"> 5. <a href="http://de.voidcc.com/question/p-qaiousnw-dv.html" target="_blank" title="regulären Ausdruck is_fraction: Python: regex"> regulären Ausdruck is_fraction: Python: regex </a> </li> <li class="side_article_list_item"> 6. <a href="http://de.voidcc.com/question/p-wwgpgvrj-db.html" target="_blank" title="MySQL regulären Ausdruck entspricht"> MySQL regulären Ausdruck entspricht </a> </li> <li class="side_article_list_item"> 7. <a href="http://de.voidcc.com/question/p-vxgtluse-be.html" target="_blank" title="übereinstimmende mehrere Zeile in regulären Python-Ausdruck"> übereinstimmende mehrere Zeile in regulären Python-Ausdruck </a> </li> <li class="side_article_list_item"> 8. <a href="http://de.voidcc.com/question/p-pjcxcsiy-bo.html" target="_blank" title="regulären Ausdruck in glob.glob von Python mit"> regulären Ausdruck in glob.glob von Python mit </a> </li> <li class="side_article_list_item"> 9. <a href="http://de.voidcc.com/question/p-hharbyrf-k.html" target="_blank" title="Was bedeutet "?:" In einem regulären Python-Ausdruck?"> Was bedeutet "?:" In einem regulären Python-Ausdruck? </a> </li> <li class="side_article_list_item"> 10. <a href="http://de.voidcc.com/question/p-xxetpslz-s.html" target="_blank" title="Python: Format-String in regulären Ausdruck konvertieren"> Python: Format-String in regulären Ausdruck konvertieren </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div>  <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://de.voidcc.com/contact">Sprechen Sie uns an</a></li> <li>© 2020 DE.VOIDCC.COM</li> <li><a rel="nofollow" href="https://beian.miit.gov.cn/" target="_blank">沪ICP备13005482号-13</a></li> <li><script type="text/javascript" src="https://s9.cnzz.com/z_stat.php?id=1280098168&web_id=1280098168"></script></li> <li><a href="http://cn.voidcc.com/" target="_blank" title="程序问答园区">简体中文</a></li> <li><a href="http://hk.voidcc.com/" target="_blank" title="程序問答園區">繁體中文</a></li> <li><a href="http://ru.voidcc.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.voidcc.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.voidcc.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.voidcc.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.voidcc.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.voidcc.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.voidcc.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.voidcc.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.voidcc.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.voidcc.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.voidcc.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer>  <script async src="https://www.googletagmanager.com/gtag/js?id=UA-77509369-5"></script> <script> window.dataLayer = window.dataLayer || []; function gtag() { dataLayer.push(arguments); } gtag('js', new Date()); gtag('config', 'UA-77509369-5'); </script> <script> var _hmt = _hmt || []; (function () { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?67d4731349f0b00136755b80364ce381"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>