ich aus der Tabelle unter dieser URL einig öffentlich zugängliche Handelsdaten am Schaben: https://502data.com/retailersSchöne Suppe - bessere Möglichkeit, bestimmte Elemente einer Tabelle zu kratzen
Mein Ziel ist es, eine Liste in Python für jede Spalte zu erstellen, beispielsweise eine "Name_liste" mit allen Einträgen in dieser Spalte der Webtabelle, eine "County_list" und so weiter.
Hier ist mein Code für die schaben Sie beginnen:
r = requests.get(url_to_scrape)
soup = BeautifulSoup(r.text, 'html.parser')
all_text = soup.get_text()
Es scheint mir, dass meine all_text Variable nicht notwendig sein kann. Es sieht so aus, als müsste es einen besseren Weg dafür geben, als ich derzeit realisiere. Zum Beispiel:
all_text[7200:8000]
Die oben genannten Erträge:
u', function($scope, $filter) {\n $scope.retailers = [{"licensenumber":"414876","name":"MAIN STREET MARIJUANA","city":"VANCOUVER","county":"CLARK","year":2017,"month":5,"sales":41170232.357500,"tax":14971101.020000,"recentSales":1374866.000000,"recentTax":508700.000000,"monthName":"May"}, ...
kann ich das nach $ scope.retailers sehen = Ich habe alle Informationen, die ich in gespeichert werden soll, was aussieht wie eine einfache Art und Weise zu analysieren.
Ich bin einfach nicht vertraut mit Beautiful Soup genug, um die besten Befehle für mich zu kennen, um durch diese Tabelle zu gehen, entweder mit der Suppe oder all_text-Variable, und ziehen Sie die Daten in jeder Zeile der Web-Tabelle.
Auf der Suche nach einer spezifischen Lösung für dieses Problem sowie alle allgemeinen BeautifulSoup Ratschläge für einen Anfänger.
Großartig, danke! Können Sie erklären, was in der Antwortvariablen durch 'headers' angegeben ist? – pavlov
@pavlov es ist nicht wirklich notwendig, die benutzerdefinierte Benutzer-Agent-Header in diesem Fall, nur meine schlechte Web-Scraping Gewohnheit :) – alecxe
Ok, aber was ist das? Sie geben an, welchen Computer und welchen Browser Sie für das Scrape verwenden? – pavlov