Angenommen, wir haben diese Schwarm-URL "https://www.swarmapp.com/c/dZxqzKerUMc", wie wir die URL unter Apple Williamsburg Hyperlink in Verbindung oben erhalten können.Wie kann ich den Foursquare-URL-Standort von der Swarm-Webseite in python3 extrahieren?
Ich habe versucht, es nach HTML-Tags zu filtern, aber es gibt viele Tags und viele foursquare.com Links. unten ist ein Teil des Quellcodes des angegebenen Link oben
<h1><strong>Kristin Brooks</strong> at <a
href="https://foursquare.com/v/apple-williamsburg/57915fa838fab553338ff7cb"
target="_blank">Apple Williamsburg</a></h1>
die URL viereckig im Code nicht immer gleich, so was der beste Weg ist, dass bestimmte URL eindeutig für jede gegebene Swarm URL zu erhalten. diese
Ich habe versucht:
import bs4
import requests
def get_4square_url(link):
response = requests.get(link)
soup = bs4.BeautifulSoup(response.text, "html.parser")
link = [a.attrs.get('href') for a in
soup.select('a[href=https://foursquare.com/v/*]')]
return link
print (get_4square_url('https://www.swarmapp.com/c/dZxqzKerUMc'))