2017-07-12 17 views
0

Ich versuche alle Titel aller Forenbeiträge auf dieser Website zu scrappen. Ich bin mir nicht sicher, wie ich das anstellen soll, da das HTML-Format der Forumswebsite mir nicht bekannt ist.
von urllib.request Import urlopen als UREQ von BS4 Import BeautifulSoup als SuppeWie benutze ich BeautifulSoup für Webscraping

my_url = 'http://thailove.net/bbs/board.php?bo_table=ent' 


uClient = uReq(my_url) 
page_html = uClient.read() 
uClient.close() 

page_soup = soup(page_html, "html.parser") 

#I don't think this is correct, but not sure on how else to to do this... 
containers = page_soup.findAll("td",{"class":"td_subject"}) 


for container in containers: 
subject = container.a.font.font.contents 

ähnlich nicht sicher, ob dies richtig ist

print("subject: ", subject) 

Bitte lassen Sie mich wissen, was ich tun soll. Bedenken Sie auch, dass die Website auf Koreanisch ist, aber wenn nötig, leicht ins Englische übersetzt werden kann. Danke im Voraus.

Antwort

1

Ihr Code ist gut, bis Sie zum for Schleife erhalten, sollten Sie container.a.contents[0] werden acessing die Themen zu bekommen, und die print Funktion in Ihrem for Schleife sein sollte:

for container in containers: 
    subject = container.a.contents[0] 
    print("subject: ", subject) 

Ausführen des Skripts dann:

>>>  
subject: 
        미성년자도 이용하는 게시판이므로 글 수위를 지켜주세요.      
subject: 
        방콕의 대표 야시장 - 딸랏롯파이2      
subject: 
        공항에서 제일 가까운 레드썬 마사지 
....... 
+0

Vielen Dank für Ihre Hilfe. Das schien mein Problem zu lösen. Wenn es Ihnen nichts ausmacht, wissen Sie auch, wie Sie alle Seiten im Forum scrappen können? Ich habe versucht, online zu suchen und kann keine richtige Lösung finden. –

+0

Sie können versuchen, über den '[" href "]' Inhalt zu iterieren –