Ich versuche, einen RSS-Feed für eine Nachrichten-Website zu analysieren und das veröffentlichte Datum, den Titel, die Beschreibung und den Link zum eigentlichen Artikel herausziehen. Bisher mit diesen Zeilen Code:Looping durch bs4.element.tag
with open('text.txt', 'r', encoding='utf-8') as f:
soup = bs4.BeautifulSoup(f, 'lxml')
all_item_tags = soup.find_all('item')
first = all_item_tags[0]
second = all_item_tags[1]
print(first.contents[9].contents[0], first.contents[1].contents[0], first.contents[4], first.contents[5].contents[0])
print(second.contents[9].contents[0], second.contents[1].contents[0], second.contents[4], second.contents[5].contents[0])
bekomme ich, dass Informationen, aber ich habe Probleme, herauszufinden, wie eine Schleife es alle Indizes von all_item_tags
zu greifen und dann den .contents[].contents[]
dieses Indizes ohne first
zu schreiben second
third
usw.
Edit: der Inhalt text.txt
- http://www.dailymail.co.uk/home/index.rss
Können Sie text.txt bereitstellen? – pregmatch
Wie wäre es 'für item_tag in all_item_tags'? –
es hat funktioniert !!! item_tag in all_item_tags –