Crawl Website-Inhalt von Python

-1

Ich studiere Python. Ich möchte Inhalte auf einer URL erhalten. Holen Sie sich den gesamten Text in einem Titel auf der Website und speichern Sie ihn in der Datei .txt. Können Sie mir ein Codebeispiel zeigen?Crawl Website-Inhalt von Python

Quelle

2016-10-07 drag

Google BeautifulSoup und/oder Scrapy. Es gibt viele Codebeispiele da draußen. –

Es gibt viele Beispiele in anderen Fragen zu StackOverflow. – furas

Von Get all text in one title on the website Ich nehme an, Sie meinen, den Titel der Seite zu bekommen? Zum einen

, müssen Sie BeautifulSoup

Wenn Sie pip haben, verwenden

pip install beautifulsoup4

nun auf den Code:

from bs4 import BeautifulSoup 
from requests import get 
r = get(url).text 
soup = BeautifulSoup(r, 'html.parser') 
title = soup.title.string #I save the title to a variable rather then jus 
with open('url.txt', 'w') as f: 
    f.write(title)

Jetzt, wo immer Sie haben das Skript gespeichert, wird eine Datei namens url.txt mit der URL haben.

Quelle

2016-10-07 05:02:29

'suppe = BeautifulSoup (r, 'lxml')', 'lxml' arbeitet schneller als' html.parser' – Jeril

Crawl Website-Inhalt von Python

Antwort

Verwandte Themen