Ich versuche, Inhalt von bestimmten Meta-Tags auslesen. Hier ist die Struktur der Meta-Tags. Die ersten beiden werden mit einem umgekehrten Schrägstrich geschlossen, aber der Rest hat keine abschließenden Tags. Sobald ich das 3. Meta-Tag erhalte, wird der gesamte Inhalt zwischen den Tags zurückgegeben. Ich habe auch soup.findAll(text=re.compile('keyword'))
versucht, aber das gibt nichts zurück, da Schlüsselwort ein Attribut des Metatags ist.Extrahieren von Inhalten von bestimmten Meta-Tags, die nicht geschlossen werden BeautifulSoup
<meta name="csrf-param" content="authenticity_token"/>
<meta name="csrf-token" content="OrpXIt/y9zdAFHWzJXY2EccDi1zNSucxcCOu8+6Mc9c="/>
<meta content='text/html; charset=UTF-8' http-equiv='Content-Type'>
<meta content='en_US' http-equiv='Content-Language'>
<meta content='c2y_K2CiLmGeet7GUQc9e3RVGp_gCOxUC4IdJg_RBVo' name='google-site- verification'>
<meta content='initial-scale=1.0,maximum-scale=1.0,width=device-width' name='viewport'>
<meta content='notranslate' name='google'>
<meta content="Learn about Uber's product, founders, investors and team. Everyone's Private Driver - Request a car from any mobile phone—text message, iPhone and Android apps. Within minutes, a professional driver in a sleek black car will arrive curbside. Automatically charged to your credit card on file, tip included." name='description'>
Hier ist der Code:
import csv
import re
import sys
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
req3 = Request("https://angel.co/uber", headers={'User-Agent': 'Mozilla/5.0')
page3 = urlopen(req3).read()
soup3 = BeautifulSoup(page3)
## This returns the entire web page since the META tags are not closed
desc = soup3.findAll(attrs={"name":"description"})
Also, was Ausgang hoffen, Sie zu bekommen? – sihrc
Ich möchte den Inhalt des Meta-Tags mit name = "description" – tcash21