Ich versuche, eine Tabelle von ESPN zu kratzen und senden Sie die Daten zu einem Pandas Datenframe, um es in Excel zu exportieren. Ich habe den größten Teil des Scrapings abgeschlossen, bin aber dabei, wie ich jedes td-Tag an eine eindeutige Datenzelle in meiner for-Schleife senden kann. (Code ist unten) Irgendwelche Gedanken? Vielen Dank!Erstellen Pandas Dataframe von WebScrapping Ergebnisse
import requests
import urllib.request
from bs4 import BeautifulSoup
import re
import os
import csv
import pandas as pd
def make_soup(url):
thepage = urllib.request.urlopen(url)
soupdata = BeautifulSoup(thepage, "html.parser")
return soupdata
soup = make_soup("http://www.espn.com/nba/statistics/player/_/stat/scoring-
per-game/sort/avgPoints/qualified/false")
regex = re.compile("^[e-o]")
for record in soup.findAll('tr', {"class":regex}):
for data in record.findAll('td'):
print(data)
Lesen: https://Stackoverflow.com/a/1732454/4047084 –
Was? Die Regex ist da, um die mehreren Header zu entfernen, die alle n Zeilen erscheinen. – johankent30
Wo ist die Entfernung? Sie wenden Regex auf BeautifulSoups Parsing-Funktion 'findAll()' an. Daher der obige Link. – Parfait