Ich kann den "Schlüsselwort" Inhalt nicht scrapieren. >“< Ich habe viele Methoden ausprobiert, aber noch immer nicht.Mein Python Scrapy kann den "Schlüsselwort" Inhalt nicht auskratzen.
ich erfolgreich andere Inhalte abgerufen haben, aber immer noch nicht das bekommen‚keyword‘Inhalt.
Kann mir jemand helfen, diese Fehler zu beheben ?? Das Schlüsselwort Inhalt befindet sich in der "#keyword_table a", oder XPath "// * [@ id =" keyword_table "]/tbody/tr/td [2]/a"
Bild des Keyword-Content:
Mein Code:
import scrapy
from bs4 import BeautifulSoup
from digitimes.items import DigitimesItem
class digitimesCrawler(scrapy.Spider):
name = 'digitimes'
start_urls = ["http://www.digitimes.com.tw/tw/dt/n/shwnws.asp?id=435000"]
def parse(self, response):
soup = BeautifulSoup(response.body,'html.parser')
soupXml = BeautifulSoup(response.body, "lxml")
simpleList = []
item = DigitimesItem()
timeSel=soup.select('.insubject .small')
tmpTime = timeSel[0].text
time = tmpTime[:10]
item['time'] = time #處理完時間啦
print(time)
titleSel = soup.select('title')
title = titleSel[0].text
item['title'] = title #處理完時間啦
print(title)
#================== To Resolve ==================
keywordOutput=""
for k in soupXml.select('#keyword_table a'):
for key in k:
keywordOutput = keywordOutput + key + " "
item['keyword'] = keywordOutput
print(keywordOutput)
#================== To Resolve ==================
categoryOutput=""
for m in soup.select('#sitemaptable tr td a'):
for cate in m:
if(cate!="DIGITIMES"):
categoryOutput = categoryOutput + cate + " "
item['cate'] = categoryOutput
print(categoryOutput)
simpleList.append(item)
return simpleList
Vielen Dank !! Ich habe gelernt, BeautifulSoup vom Online-Kurs zu verwenden ~ Ich werde gehen, um den ursprünglichen Selektor im scrapy zu überprüfen ~~ Danke !! –