Von the documentation, Massage-Methoden sind nur Paare von (regular expression, replacement function)
, so glaube ich nicht, es ist wirklich ein Fall von Massage oder Regexs verwenden.
z.B. malformed Kommentare aufzuräumen:
(re.compile('<!-([^-])'), lambda match: '<!--' + match.group(1))
Wenn Sie an der Quelle des Methode in BeautifulSoup.py anschauen, werden Sie sehen, dass diese nur in Folge gegen die Auszeichnungs laufen:
for fix, m in self.markupMassage:
markup = fix.sub(m, markup)
Während also Sie können einige eigene Regexp-Verarbeitungen durchführen, bevor BeautifulSoup das Markup sehen kann. Sie sind wahrscheinlich besser in der Lage, alle zusätzlichen Aufräumarbeiten zu kombinieren, die mit dem Standard-Build MARKUP_MASSAGE
benötigt werden, wie in Oli's gezeigt.