Wie kann ich den Foursquare-URL-Standort von der Swarm-Webseite in python3 extrahieren?

Angenommen, wir haben diese Schwarm-URL "https://www.swarmapp.com/c/dZxqzKerUMc", wie wir die URL unter Apple Williamsburg Hyperlink in Verbindung oben erhalten können.Wie kann ich den Foursquare-URL-Standort von der Swarm-Webseite in python3 extrahieren?

Ich habe versucht, es nach HTML-Tags zu filtern, aber es gibt viele Tags und viele foursquare.com Links. unten ist ein Teil des Quellcodes des angegebenen Link oben

<h1><strong>Kristin Brooks</strong> at <a 
href="https://foursquare.com/v/apple-williamsburg/57915fa838fab553338ff7cb" 
target="_blank">Apple Williamsburg</a></h1>

die URL viereckig im Code nicht immer gleich, so was der beste Weg ist, dass bestimmte URL eindeutig für jede gegebene Swarm URL zu erhalten. diese

Ich habe versucht:

import bs4 
import requests 

def get_4square_url(link): 
    response = requests.get(link) 
    soup = bs4.BeautifulSoup(response.text, "html.parser") 
    link = [a.attrs.get('href') for a in 
soup.select('a[href=https://foursquare.com/v/*]')] 
    return link 

print (get_4square_url('https://www.swarmapp.com/c/dZxqzKerUMc'))

Quelle

2017-09-21 Alsphere

I verwendet https://foursquare.com/v/ als Muster

def get_4square_url(link): 
    try: 
     response = requests.get(link) 
     soup = bs4.BeautifulSoup(response.text, "html.parser") 
     for elem in soup.find_all('a', 
href=re.compile('https://foursquare\.com/v/')): #here is my pattern 
      link = elem['href'] 
     return link 
    except requests.exceptions.HTTPError or 
requests.exceptions.ConnectionError or requests.exceptions.ConnectTimeout \ 
      or urllib3.exceptions.MaxRetryError: 
     pass

die gewünschte URL zu erhalten

Quelle

2017-09-22 09:33:33 Alsphere

Wie kann ich den Foursquare-URL-Standort von der Swarm-Webseite in python3 extrahieren?

Antwort

Verwandte Themen