Ich habe Schwierigkeiten, Scrapy dazu zu bringen, den Link einer nächsten Seite zu erkennen. Wenn Sie xpath // a verwenden, wird der Link nicht angezeigt. Und ich versuchteVerwenden von Scrapy, um den nächsten Link zu erhalten
response.xpath("//*[@id='nextpage']/a").extract()
ohne Glück zusammen mit mehreren anderen Permutationen. Ich versuche, die href="pdetail.php?instnum=2016230702&year=2016"
Link
Hier zu analysieren ist der Code:
<div class=""><br>
<table width="95%" align="center">
<tbody><tr>
<td class=""></td>
<td align="center" class="">
<h3 style="" class="Header">
Detail Information For Instrument # 2016230701 In Year 2016 </h3>
</td>
<td class=""></td>
</tr>
<tr>
<td class=""><div style="float:left;margin-left:30px;" id="previouspage" class=""><a href="pdetail.php?instnum=2016230700&year=2016"><button style="font-size:18px;font-family: arial" type="button" class="">Previous Page</button></a> </div></td>
<td class=""></td>
<td class=""><div style="float:right;" id="nextpage" class=""><a href="pdetail.php?instnum=2016230702&year=2016"><button style="font-size:18px;font-family: arial" type="button" class="">Next Page</button></a></div></td>
</tr>
</tbody></table>
I Permutation der XPath laufen und ich erhalte die folgende Schleife - mit der Seite auf sich selbst zurückrufen :
2016-09-24 18:26:03 [scrapy] DEBUG: Crawled (200) <GET http://search.jeffersondeeds.com/pdetail.php?instnum=2016230701&year=2016&db=0&cnum=20> (referer: http://search.jeffersondeeds.com/pdetail.php?instnum=2016230701&year=2016&db=0&cnum=20)
http://stackoverflow.com/questions/36281413/scrapy-getting-href-out-of-div Möglicherweise möchten Sie w3school XPath-Tutorial besuchen http://www.w3schools.com/xsl/xpath_intro .asp –