Ich kratze einige Websites mit BeautifulSoup und Anfragen. Es gibt eine Seite, die ich untersuche, die ihre Daten innerhalb eines Tags <script language="JavaScript" type="text/javascript">
hat. Es sieht wie folgt aus:Parsen von variablen Daten aus einem Javascript-Tag mit Python
<script language="JavaScript" type="text/javascript">
var page_data = {
"default_sku" : "SKU12345",
"get_together" : {
"imageLargeURL" : "http://null.null/pictures/large.jpg",
"URL" : "http://null.null/index.tmpl",
"name" : "Paints",
"description" : "Here is a description and it works pretty well",
"canFavorite" : 1,
"id" : 1234,
"type" : 2,
"category" : "faded",
"imageThumbnailURL" : "http://null.null/small9.jpg"
......
Gibt es eine Möglichkeit, dass ich ein Python-Wörterbuch oder JSON-Objekt aus dem page_data
Variable in diesem Script-Tag erstellen können? Das wäre viel schöner, als mit BeautifulSoup Werte zu erreichen.
Das ist wirklich toll und macht Sinn. Vielen Dank für Ihre Hilfe. – ajt
Ich würde gerne wissen, wie ich dies für eine Objektdeklaration, die keine Anführungszeichen verwendet, um die Schlüssel des Objekts, z. 'default_sku:" SKU12345 ", ...'. Es würde wahrscheinlich nur eine Regex ... – 2rs2ts
@ 2rs2ts: Siehe [Problem mit HTML-Tags beim Scraping von Daten mit schönen Suppe] (http://StackOverflow.com/A/14122300) für eine vorherige Antwort, die in Anführungszeichen fügt mache etwas gültiges JSON. –