2017-07-01 1 views
0

begann gerade heute Nachmittag Python zu lernen. Der Versuch, den RSS-Feed von kubuntu.org (einfacher html) als Praxis zu kratzen, aber ich kann nicht herausfinden, wie der HTML zu navigieren und nur die FEEDTITLE drucken:Wie navigiere ich HTML mit bs4?

#!/usr/bin/python3.5 
import bs4 as bs 
import urllib.request 

site = urllib.request.urlopen('https://kubuntu.org/feed').read() 
soup = bs.BeautifulSoup(site, 'lxml') 

for title in soup.find_all('item'): 
    print(title.text) 

EDIT:

Zugabe title zu Die find_all Zeile gibt mir, was ich will, aber es gibt immer noch eine Menge Daten, die auch das Title-Tag verwendet.

#!/usr/bin/python3.5 
import bs4 as bs 
import urllib.request 

site = urllib.request.urlopen('https://kubuntu.org/feed').read() 
soup = bs.BeautifulSoup(site, 'lxml') 

for title in soup.find_all(['item', 'title']): 
    print(title.text) 

Antwort

0

Zugriff Nur title Tag als item ‚s Child-Knoten:

... 
for item in soup.find_all('item'): 
    print(item.title.text) 

Der Ausgang:

Kubuntu Artful Aardvark (17.10) Alpha 1 
Latest round of backports PPA updates include Plasma 5.10.2 for Zesty 17.04 
Plasma 5.10.1 now in Zesty backports 
17.10 Wallpaper Contest deadline for submissions soon 
Plasma bugfix releases, Frameworks, & selected app updates now available in backports PPA for Zesty and Xenial 
17.10 Wallpaper Contest! Call for artists 
KDE PIM update now available for Zesty Zapus 17.04 
KDE PIM update for Zesty available for testers 
Kubuntu 17.04 Released! 
Kubuntu 17.04 Release Candidate – call for testers