2017-07-09 8 views
0

So habe ich Schwierigkeiten, den href-Link für die nächsten Seiten der URL zu erhalten. Ich stand auf, um den ganzen Text zu erhalten und was nicht, dass das Tag enthält, aber ich kann nicht meinen Kopf herum um den Text zu entfernen, den ich nicht brauche, und nur den href erhalten und durch die Seiten navigieren.Wie bekomme ich die nächste Seitennummerierung 'href'?

Hier ist mein Code:

import requests 
from bs4 import BeautifulSoup 
import webbrowser 
import time 

jobsearch = input("What type of job?: ") 
location = input("What is your location: ") 
url = ("https://ca.indeed.com/jobs?q=" + jobsearch + "&l=" + location) 
base_url = 'https://ca.indeed.com/' 

r = requests.get(url) 
rcontent = r.content 
prettify = BeautifulSoup(rcontent, "html.parser") 

filter_words = ['engineering', 'instrumentation', 'QA'] 
all_job_url = [] 
nextpages = [] 
filtered_job_links = [] 
http_flinks = [] 
flinks = [] 

def all_next_pages(): 
    pages = prettify.find_all('div', {'class':'pagination'}) 
    for next_page in pages: 
     next_page.find_all('a') 
     nextpages.append(next_page) 
     print(next_page) 

all_next_pages() 

Antwort

1

Hier ist eine Möglichkeit, die Links der Suchergebnispositionen zu erhalten. Finden Sie row result Klasse und dann finden Sie a Tag, es enthält alle Informationen, die Sie benötigen.

import requests 
from bs4 import BeautifulSoup 
import webbrowser 
import time 

jobsearch = input("What type of job?: ") 
location = input("What is your location: ") 
url = ("https://ca.indeed.com/jobs?q=" + jobsearch + "&l=" + location) 
base_url = 'https://ca.indeed.com/' 

r = requests.get(url) 
rcontent = r.text 
prettify = BeautifulSoup(rcontent, "lxml") 

filter_words = ['engineering', 'instrumentation', 'QA'] 
all_job_url = [] 
nextpages = [] 
filtered_job_links = [] 
http_flinks = [] 
flinks = [] 

def all_next_pages(): 
    pages = prettify.find_all('div', {'class':' row result'}) 
    for next_page in pages: 
     info = next_page.find('a') 
     url = info.get('href') 
     title = info.get('title') 
     print(title,url) 

all_next_pages() 
Verwandte Themen