Ich versuche, einige Links von einem bestimmten Filehoster auf watchseriesfree.to Website zu extrahieren. Im folgenden Fall möchte ich rapidvideo Links, so dass ich regex rapidvideoRegex funktioniert nicht in bs4
import re
import urllib2
from bs4 import BeautifulSoup
def gethtml(link):
req = urllib2.Request(link, headers={'User-Agent': "Magic Browser"})
con = urllib2.urlopen(req)
html = con.read()
return html
def findLatest():
url = "https://watchseriesfree.to/serie/Madam-Secretary"
head = "https://watchseriesfree.to"
soup = BeautifulSoup(gethtml(url), 'html.parser')
latep = soup.find("a", title=re.compile('Latest Episode'))
soup = BeautifulSoup(gethtml(head + latep['href']), 'html.parser')
firstVod = soup.findAll("tr",text=re.compile('rapidvideo'))
return firstVod
print(findLatest())
jedoch der obige Code diese Tags mit Text enthält, um herauszufiltern gibt eine leere Liste. Was mache ich falsch?
NB: 'findAll' scheint' find_all' in BS4 umbenannt wurden. (Anscheinend wurde die bs3-Version beibehalten, aber ich würde den Code sowieso aktualisieren.) Die 'find_all'-Funktionssignatur hat auch keinen' text'-Parameter, sondern einen 'string' -Parameter. – Evert