Ich versuche, eine bestimmte Art des Herausziehens von Text aus dem folgenden HTML zu erstellen.BeautifulSoup4 soup.find ('tag', text = re.compile ('mein Text')) funktioniert nur manchmal
</table>
<table border="0" cellpadding="0" cellspacing="0">
<tr>
<td>Close Date:</td>
<td> June 19, 2008</td>
Meine Frage ist, warum so etwas wie:
soup.find('td', text=re.compile('Close'))
kehrt:
<td>Close Date:</td>
Allerdings, wenn ich versuchen, es etwas präziser zu tun nichts zurückgibt.
soup.find('td', text=re.compile('Close Date:'))
Ich mag das Skript so spezifisch wie möglich machen, so dass ich es durch mehrere Webseiten ohne fehlerhaften Text Aufnehmen ausführen kann.
Does 'soup.find ('td', text = re.compile ('Schließen \ s + Datum:')) 'Arbeit? Dies würde 1 oder mehr Leerzeichen zwischen "Schließen" und "Datum" entsprechen - was hilfreich sein könnte, wenn das Leerzeichen tatsächlich ein [geschützter Speicherplatz] ist (http://stackoverflow.com/q/1357078/190597) (dh ' ') – unutbu
@unutbu Ich glaube nicht '\ s' passt' '. – DyZ
Ja! Das hat funktioniert! Viel Obligated –