2016-12-01 2 views
1

Ich schabe Daten über eine Wettseite (https://www.pointdevente.parionssport.fdj.fr/parisouverts/rugby).BeautifulSoup - Scrapping Daten durch paginierte Tabelle mit Python

Ich kann eine begrenzte Anzahl von Ereignissen auf der aktuellen Seite scrappen. Das Problem, mit dem ich konfrontiert bin, ist, dass ich den Rest der Daten in der Tabelle nicht durcharbeiten kann. Wie gehe ich zur nächsten Seite oder zum nächsten Link.

Im Anschluss ist mein Code:

import urllib2 
from urllib2 import urlopen 
import requests 
import dryscrape 
from bs4 import BeautifulSoup 

dryscrape.start_xvfb() 
SessionFDJ = dryscrape.Session() 
SessionFDJ.visit('https://pointdevente.parionssport.fdj.fr/parisouverts/rugby/') 
ResponseFDJ = SessionFDJ.body() 
print(ResponseFDJ) 

Antwort

0

Diese Seite Verwendung JavaScript alle Daten zu erhalten und zu verändern. Verwenden Sie DevTools in Chrome/Firefox, um zu sehen, welche Dateien/Urls von Browser verwendet werden, und Sie sehen

https://www.pointdevente.parionssport.fdj.fr/api/1n2/offre?sport=964500

die alle Daten als JSON gibt.

Es scheint, diese Seite Verwendung API so API-Dokumentation finden und werden Sie keine Notwendigkeit BeautifulSoup


import requests 

url = 'https://www.pointdevente.parionssport.fdj.fr/api/1n2/offre?sport=964500' 

r = requests.get(url) 

for x in data: 
    print(x['label']) 

Ergebnis:

Biarritz-Perpignan 
Kenya-France 
Australie-Japon 
Etats-Unis-Ecosse 
Argentine-Pays de Galles 
Angleterre-Samoa 
Montauban-Colomiers 
Bourgoin-Angoulême 
Aurillac-Mt-de-Marsan 
Dax-Albi 
Vannes-Béziers 
Ospreys-Edimbourg 
Glasgow-Munster 
Sale-Exeter 
Bath-Saracens 
Pau-Clermont 
Zebre-Llanelli 
Angleterre-Australie 
Connacht-Trévise 
Gloucester-Bristol 
Leicester-Northampton 
Cardiff-Ulster 
Grenoble-Montpellier 
Lyon-Castres 
St.Français-Bayonne 
Leinster-Newport 
La Rochelle-Racing 92 
Toulouse-Brive 
Narbonne-Oyonnax 
Worcester-Wasps 
Newcastle-Harlequins 
Toulon-Bordeaux 
Fidji-Canada 
NlleZélande-Russie 
Agen-Carcassonne 
AfriqueduSud-Ouganda 
+0

Danke für die Antwort. Ich habe das offensichtlich nicht richtig gemacht. Wird die JSON-Bibliothek erkunden. – Bolito

0

Dies ist eine Client-rendered ist die Anwendung, nicht da ist Tabelleninformationen in HTML können Sie über urllib erhalten. Alle Daten werden mit Javascript abgerufen und gerendert. Es ist noch einfacher, Sie müssen HTML nicht analysieren.

Hier ist ein Link, die notwendigen Daten hat - https://www.pointdevente.parionssport.fdj.fr/api/1n2/offre?sport=964500

Es gibt JSON mit allen Ereignissen, können Sie Python json Bibliothek verwenden, um sie zu analysieren.

+0

Danke für die Antwort. Ich habe das offensichtlich nicht richtig gemacht. Wird die JSON-Bibliothek erkunden. – Bolito

Verwandte Themen