Python/BeautifulSoup - Wie alle Tags von einem Element zu entfernen?

Wie kann ich einfach alle Tags von einem Element entfernen, das ich in BeautifulSoup finde?Python/BeautifulSoup - Wie alle Tags von einem Element zu entfernen?

Quelle

2013-04-25 Daniele B

Angenommen, Sie die Tags entfernen lassen möchten, aber den Inhalt halten, finden Sie in der akzeptierte Antwort auf diese Frage: Remove a tag using BeautifulSoup but keep its contents

Quelle

2013-04-25 04:31:04 Shaun

sieht es so aus der Art und Weise zu tun ist! so einfach wie das

mit dieser Zeile Sie

''.join(htmlelement.find(text=True))

Quelle

2013-04-25 04:46:12

die alle Textteile innerhalb des aktuellen Elements zusammen verbinden sind, können Sie die decompose Methode in BS4 verwenden:

soup = bs4.BeautifulSoup('<body><a href="http://example.com/">I linked to <i>example.com</i></a></body>') 

for a in soup.find('a').children: 
    if isinstance(a,bs4.element.Tag): 
     a.decompose() 

print soup 

Out: <html><body><a href="http://example.com/">I linked to </a></body></html>

Quelle

2013-10-17 22:37:41 danblack

warum hat keine Antwort Ich habe etwas über die Methode unwrap erwähnt? Oder, noch einfacher, die get_text Methode

http://www.crummy.com/software/BeautifulSoup/bs4/doc/#unwrap http://www.crummy.com/software/BeautifulSoup/bs4/doc/#get-text

Quelle

2014-04-29 00:40:34 Bobby

Mit BeautifulStoneSoup in bs4 gegangen, es ist noch einfacher in Python3

from bs4 import BeautifulSoup 

soup = BeautifulSoup(html) 
text = soup.get_text() 
print(text)

Quelle

2015-01-27 02:47:02 shawnl

Es ist besser, 'get_text()' anstelle von 'getText()' zu verwenden. – SparkAndShine

Warum ist das? Es mag gut sein, aber es wäre hilfreich zu verstehen, warum. –

+11

getText() ist bs3-Syntax und nicht pep8-konform. Es wird wahrscheinlich veraltet sein. –

Verwenden get_text(), gibt es den gesamten Text in einem Dokument oder unter ein Tag als einzelne Unicode-Zeichenfolge.

So entfernen Sie alle verschiedenen Script-Tags aus dem folgenden Text:

<td><a href="http://www.irit.fr/SC">Signal et Communication</a> 
<br/><a href="http://www.irit.fr/IRT">Ingénierie Réseaux et Télécommunications</a> 
</td>

Das erwartete Ergebnis ist:

Signal et Communication 
Ingénierie Réseaux et Télécommunications

Hier ist der Quellcode ist:

#!/usr/bin/env python3 
from bs4 import BeautifulSoup 

text = ''' 
<td><a href="http://www.irit.fr/SC">Signal et Communication</a> 
<br/><a href="http://www.irit.fr/IRT">Ingénierie Réseaux et Télécommunications</a> 
</td> 
''' 
soup = BeautifulSoup(text) 

print(soup.get_text())

Quelle

2015-07-20 16:37:08 SparkAndShine

Python/BeautifulSoup - Wie alle Tags von einem Element zu entfernen?

Antwort

Verwandte Themen