2017-02-13 5 views
0
http://www.wfri.re.kr/client/PublishHp.do?command=view&list_dis_txt=PUB&current_page=1&isu_year=all&list_unq_no=RP00000001847&search_category=&search_keyword=&pub_dt=20170203&topMenuNo=H20000&leftMenuNo=H20100 

Ich krabbele diese Seite.Ich kann Tag in HTML nicht finden

Ich bin mit Python3 und BeautifulSoup

Mein Crawler keine Tags finden Sie hier.

Ich möchte die PDF-Datei hier herunterladen.

Beautifulsoup kann keine Markierung von dieser Seite abkratzen.

Warum?

def second_crawler(second_url): 
    second_url = 'http://www.wfri.re.kr/client/PublishHp.do?command=view&list_dis_txt=PUB&current_page=1&isu_year=all&list_unq_no=RP00000001847&search_category=&search_keyword=&pub_dt=20170203&topMenuNo=H20000&leftMenuNo=H20100' 
    source_code = requests.get(second_url) 
    plain_text = source_code.text 
    soup = BeautifulSoup(plain_text, 'lxml') 
    print(soup) # for debug 
    # tdTag = soup.findAll('td',class_='view_cont') 
    # print(len(tdTag)) ## result is 0. Why?? 
+0

Können Sie uns den Code zeigen, den Sie verwendet haben? Einfacher zu helfen, wenn wir wissen, in welche Probleme Sie speziell laufen ... – serk

+0

@serk OK, es ist sehr einfach. Überprüfe meinen Code. – StackQ

+0

@ Sollte ich Selen verwenden? – StackQ

Antwort

0

Die Website verwendet JavaScript-Funktion javascript:fnc_filedown() statt URL der Download-Funktionalität für PDF-Dateien zur Verfügung zu stellen.

Zum Beispiel, wenn ich eine von der Post unter: http://www.wfri.re.kr/client/PublishHp.do?command=view&list_dis_txt=PUB&current_page=1&isu_year=all&list_unq_no=RP00000001847&search_category=&search_keyword=&pub_dt=20170203&topMenuNo=H20000&leftMenuNo=H20100

Der Downloadvorgang wird nur über die folgende Zeile ausgelöst werden:

javascript:fnc_filedown('XXX.pdf', '148636884482283162132'); 

Da, dass die Referenz Link hier gespeichert:

<a href = "javascript:fnc_filedown('XXX.pdf', '148636884482283162132');" class="link01">XXX.pdf</a> 

Der Versuch, Ihren Crawler nach dem Stil der Website zu ändern, wird vorgeschlagen.

+0

@ Vielen Dank Ihre Kommentare. Aber ich weiß das. Auch ich habe die Download-URL gefunden. Ich habe mich gefragt, wie ich die Tags sehen konnte, als der HTML-Code auf dem Client ausgeführt wurde. aber Danke deinen Kommentar. – StackQ

Verwandte Themen