Ich versuche alle Titel aller Forenbeiträge auf dieser Website zu scrappen. Ich bin mir nicht sicher, wie ich das anstellen soll, da das HTML-Format der Forumswebsite mir nicht bekannt ist.
von urllib.request Import urlopen als UREQ von BS4 Import BeautifulSoup als SuppeWie benutze ich BeautifulSoup für Webscraping
my_url = 'http://thailove.net/bbs/board.php?bo_table=ent'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
#I don't think this is correct, but not sure on how else to to do this...
containers = page_soup.findAll("td",{"class":"td_subject"})
for container in containers:
subject = container.a.font.font.contents
ähnlich nicht sicher, ob dies richtig ist
print("subject: ", subject)
Bitte lassen Sie mich wissen, was ich tun soll. Bedenken Sie auch, dass die Website auf Koreanisch ist, aber wenn nötig, leicht ins Englische übersetzt werden kann. Danke im Voraus.
Vielen Dank für Ihre Hilfe. Das schien mein Problem zu lösen. Wenn es Ihnen nichts ausmacht, wissen Sie auch, wie Sie alle Seiten im Forum scrappen können? Ich habe versucht, online zu suchen und kann keine richtige Lösung finden. –
Sie können versuchen, über den '[" href "]' Inhalt zu iterieren –