Ich habe gerade angefangen, über reguläre Ausdrücke in Python zu lernen, und ich habe ein bisschen Fortschritte gemacht, was ich erreichen möchte.Python Regulärer Ausdruck Einen bestimmten Text zwischen den Headern finden
import urllib.request
import urllib.parse
import re
x = urllib.request.urlopen("http://www.SOMEWEBSITE.com")
contents = x.read()
paragraphs = re.findall(r'<p>(.*?)</p>', str(contents))
Also mit diesem regulären Ausdruck Ich bin in der Lage, alles zwischen dem Absatz Header zu finden, aber was ist, wenn ich möchte sie mit bestimmten Worten Absätze finden? Analysieren Sie beispielsweise alle Absätze, in denen das Wort "Katze" enthalten ist. Ich weiß, dass (. *?) Alles findet, aber ich bin nur ein bisschen verloren in der Intuition, wenn ich einen Absatz mit einem bestimmten Schlüsselwort finde.
Wie auch immer, danke.
Wenn Sie dieses Recht tun wollen, im Gegensatz zu ein bloßer Hack, benutze [BeautifulSoup] (https://en.wikipedia.org/wiki/Beautiful_Soup_ (HTML_parser)). – John1024
Verwenden Sie Regex nicht zum Analysieren von HTML – depperm
Als eine Übung, wie würde ich es mit Regex tun? – user2965071