url <-"http://news.chosun.com/svc/content_view/content_view.html?contid=1999080570392"
hh = read_html(GET(url),encoding = "EUC-KR")
#guess_encoding(hh)
html_text(html_node(hh, 'div.par'))
#html_text(html_nodes(hh ,xpath='//*[@id="news_body_id"]/div[2]/div[3]'))
Ich versuche zu kriechen die Nachrichtendaten (nur für die Praxis) mit rvest in R.in R - mit rvest kriecht - nicht die Texte in HTML-Tag mit html_text Funktion
Als ich versuchte, erhalten Ich habe es auf der Homepage oben nicht geschafft, den Text von der Seite zu holen. (Xpath funktioniert auch nicht.)
Ich glaube nicht, dass ich den Link nicht finden konnte, die Texte enthalten, die ich auf der Seite erhalten möchte. Aber wenn ich versuche, den Text von diesem Link mit der Funktion html_text zu extrahieren, wird er als "" oder Leerzeichen extrahiert.
Ich kann nicht finden, warum .. Ich habe keine Erfahrung mit HTML und Crawlen.
Was ich vermute, ist das HTML-Tag, das Nachrichtenkörperkontexte enthält, hat "Klasse" und "Daten-Dzo" (ich weiß nicht, was es ist).
Also wenn jemand mir sagen, wie man es löst oder lassen Sie mich wissen, die Suchbegriffe, die ich auf Google finden kann, um dieses Problem zu lösen.
Vielen Dank für Ihren Rat zu Ihrer technischen Hilfe und Vorsicht. Beide waren sehr hilfreich. Ich werde besonders auf Ihre Vorsichtsmaßnahmen hinweisen. Danke nochmal. –