Als Ausgangspunkt, würde ich BeautifulSoup
HTML parser verwenden Sie das gewünschte Element in der HTML zu finden Geben Sie den Text des Elements ein und extrahieren Sie ihn.
Dann würde ich itertools.takewhile()
verwenden, um alle Zeichen in einer Zeichenfolge zu erhalten, bis eine Ziffer erfüllt ist:
In [1]: from itertools import takewhile
In [2]: from bs4 import BeautifulSoup
In [3]: data = """<div class="text">hello there 234 44</div>"""
In [4]: soup = BeautifulSoup(data, "html.parser")
In [5]: text = soup.find("div", class_="text").get_text()
In [6]: ''.join(takewhile(lambda x: not x.isdigit(), text))
Out[6]: u'hello there '
werden Sie eine Website kratzen? Wenn ja, gibt es Tools, um die Informationen ohne Regex zu finden. – MooingRawr
Das sieht gefährlich aus wie [regex, um html zu parsen] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags). Versuchen Sie stattdessen [beautifulsoup] (https://www.crummy.com/software/BeautifulSoup/) als Ausgangspunkt? – roganjosh
Angenommen, ich möchte lernen, wie man es in Regex macht :) – rearThing