Ich verwende lxml.html ModulPython3 Schaber. Analysiert keine XPath bis zum Ende
from lxml import html
page = html.parse('http://directory.ccnecommunity.org/reports/rptAccreditedPrograms_New.asp?sort=institution')
# print(page.content)
unis = page.xpath('//tr/td[@valign="top" and @style="width: 50%;padding-right:15px"]/h3/text()')
print(unis.__len__())
with open('workfile.txt', 'w') as f:
for uni in unis:
f.write(uni + '\n')
Die Website hier (http://directory.ccnecommunity.org/reports/rptAccreditedPrograms_New.asp?sort=institution#Z) ist voll von Universitäten.
Das Problem ist, dass es bis zum Buchstaben "H" (244 Unis) analysiert. Ich kann nicht verstehen, warum, wie ich sehe es bis zum Ende alle HTML analysiert.
Ich dokumentierte auch mein Selbst, dass 244 keine Begrenzung einer Liste oder irgendetwas in python3 ist.
Betrachten wir mit 'requests' und' beautifulsoup4'? – taesu
das gleiche, wie ich schon sagte, es analysiert das HTML bis zum Ende. So ist das Problem nicht in der Anfragefunktion, die ich verwende. –