Hier ist der Code:Parse Aktivität instabil, ein paar zufällige Ergebnisse zu erzielen
# -*- coding: utf-8 -*-
import urllib2
from bs4 import BeautifulSoup
with open('/users/Rachael/Desktop/CheckTitle.csv', 'r') as readcsv:
for row in readcsv.readlines():
try:
openitem = urllib2.urlopen(row).read()
soup = BeautifulSoup(openitem, 'lxml')
print soup.head.find('title').get_text()
except urllib2.URLError:
print 'passed'
pass
Ich erhalte folgende Ergebnisse:
(a):
passed
贝贝网京外裁员10%:团队要保持狼性和危机感_新浪财经_新浪网
垂直电商贝贝网被曝裁员 回应称只是10%人员优化_新浪财经_新浪网
(b):
passed
Traceback (most recent call last):
File "C:/Users/Rachael/PycharmProjects/untitled1/GetTitle.py", line 10, in
<module>
print soup.head.find('title').get_text()
AttributeError: 'NoneType' object has no attribute 'find'
(c):
passed
贝贝网京外裁员10%:团队要保持狼性和危机感_新浪财经_新浪网
Traceback (most recent call last):
File "C:/Users/Rachael/PycharmProjects/untitled1/GetTitle.py", line 10, in <module>
print soup.head.find('title').get_text()
AttributeError: 'NoneType' object has no attribute 'find'
Ich bekomme diese drei Arten von Ergebnissen nach dem Zufallsprinzip.
Wenn ich stattdessen supp.title ODER soup.title.text ODER soup.title.string mache, wird der gleiche/ähnliche Fehler zurückgegeben.
Bitte helfen!
Ich fand das sehr schwer zu beschreiben, also wenn das in irgendeiner Weise ein dup ist, bitte geben Sie mir den Link zu ähnlichen Posts.
Danke !!
Sind Sie sicher, dass diese fehlerhaften Seiten einen '
' Tag haben? – tayfunJa, ich habe die Webseiten überprüft, die alle
Tags haben – RachaelT