2016-05-17 17 views
-4

Ich möchte Daten aus der unteren Seite kratzen:Scraping Daten von einem Web mit R

http://www.bigpara.com/borsa/gecmis-kapanislar/endeks/14-aralik-2015 Die zugehörige Quelle:

<div class="tableCnt"> 
    <div class="table wide"> 
     <div class="tableBox"> 
      <div class="tHead"> 
       <ul> 
        <li class="cell008 tal">Menkul Adı</li> 
        <li class="cell002">Dün</li> 
        <li class="cell002">1.Seans</li> 
        <li class="cell002">2.Seans</li> 
        <li class="cell002">%</li> 
        <li class="cell002">Yüksek</li> 
        <li class="cell002">Düşük</li> 
       </ul> 
      </div> 
      <div class="tBody"> 
         <ul> 
          <li class="cell008 tal arrow"><a href="/borsa/endeksler/bist-30-agirlik-sinirlamali-endeksi/">X030S</a></li> 
          <li class="cell002">86.337</li> 
          <li class="cell002">87.403</li> 
          <li class="cell002">85.010</li> 
          <li class="cell002">-1,54</li> 
          <li class="cell002">88.151</li> 
          <li class="cell002">84.863</li> 
         </ul> 
         <ul> 
          <li class="cell008 tal arrow"><a href="/borsa/endeksler/bist-100-agirlik-sinirlamali-endeksi/">X100S</a></li> 
          <li class="cell002">70.274</li> 
          <li class="cell002">71.146</li> 
          <li class="cell002">69.302</li> 
          <li class="cell002">-1,38</li> 
          <li class="cell002">71.680</li> 

Ich möchte 69,302 kratzen.

enter image description here

Dieses Beispiel ist nur für dieses Datum (14-Aralik-2015/14 Dezember 2015). Allerdings mache ich eine Schleife, um die gleiche Zelle für andere Daten zu kratzen.

Ich habe viele Dinge ausprobiert, aber Web Scraping scheint mir so schwierig. Ich werde mich sehr für jede Hilfe freuen. Danke vielmals.

+1

look up 'rvest'. – MichaelChirico

Antwort

2

rvest macht dies ziemlich einfach. Für eine einzelne Zelle, klicken Sie einfach mit der rechten Maustaste, inspizieren und kopieren Sie dann den X-Pfad für die Zelle. Etwas sagt mir, dass Sie Ihre Frage ändern und nach mehr als nur dieser einzelnen Zelle fragen werden.

library("rvest") 
url <- "http://www.bigpara.com/borsa/gecmis-kapanislar/endeks/14-aralik-2015/2-ocak-2000" 

read_html(url) %>% 
    html_nodes(xpath='//*[@id="content"]/div[2]/div[3]/div/div/div[2]/ul[2]/li[4]') %>% 
    html_text() %>% 
    as.numeric() 
+0

Der Code gibt mir Fehler wie 'Fehler in eval (expr, envir, enclos): konnte nicht finden Funktion "read_html'. Und Sie haben Recht :) Ich werde es bearbeiten. – oercim

+0

Sie müssen' install.Packages ("rvest") 'und' library ("rvest") ' – cory

+0

Ein alternativer CSS-Selektor:' ".tBody ul: nth-child (2) li: nth-child (4)" ' – alistaire