Ich html Quellcode von vielen Seiten von einer Website abrufen, muss ich es in JSON-Objekt konvertieren und mit anderen Elementen in JSON Doc kombinieren. . Ich habe viele Fragen zum selben Thema gesehen, aber keine von ihnen war hilfreich.Convert HTML-Quellcode in JSON-Objekt
Mein Code:
url = "https://totalhash.cymru.com/analysis/?1ce201cf28c6dd738fd4e65da55242822111bd9f"
htmlContent = requests.get(url, verify=False)
data = htmlContent.text
print("data",data)
jsonD = json.dumps(htmlContent.text)
jsonL = json.loads(jsonD)
ContentUrl='{ \"url\" : \"'+str(urls)+'\" ,'+"\n"+' \"uid\" : \"'+str(uniqueID)+'\" ,\n\"page_content\" : \"'+jsonL+'\" , \n\"date\" : \"'+finalDate+'\"}'
obige Code gibt mir Unicode-Typ, aber wenn ich diese Ausgabe in jsonLint setzen es gibt mir ungültig json Fehler. Kann mir jemand helfen zu verstehen, wie ich das komplette HTML in ein JSON-Objekt umwandeln kann?
versuchen Kolben Module jsonify() Methode verwendet. –
Die Quelle der URL gibt json nicht zurück. Um Elementwerte aus HTML zu holen, müssen Sie etwas wie BeautifulSoup oder lxml usw. verwenden. –
Sie machen hier einige sehr seltsame Dinge. Warum würden Sie zu JSON dumpen, dann sofort laden und * dann * einen JSON-String manuell erstellen? –