Beautiful soup ist immer noch wahrscheinlich Ihre beste Wette.
Wenn Sie „JavaScript-Unterstützung“ für die Zwecke des Abfangens Ajax-Anfragen benötigen, dann sollten Sie auch eine Art von Capture verwenden (wie YATT) zu überwachen, was diese Anforderungen sind, und dann emuliert/Parsen sie.
Wenn Sie "JavaScript-Unterstützung" benötigen, um sehen zu können, was das Endergebnis einer Seite mit statischem JavaScript ist, dann wäre meine erste Wahl, herauszufinden, was das JavaScript in einem Fall bewirkt. von Fall zu Fall (zB wenn das JavaScript etwas basierend auf etwas Xml tut, dann einfach das Xml direkt analysieren)
Wenn Sie wirklich wollen "JavaScript-Unterstützung" (wie in Sie wollen sehen, was die HTML nach Skripten ist auf einer Seite ausgeführt wurden), dann denke ich, dass Sie wahrscheinlich eine Instanz eines Browsersteuerelements erstellen müssen und dann das resultierende html/dom aus dem Browsersteuerelement lesen müssen, sobald es fertig geladen ist, und es normalerweise mit einer schönen Suppe analysieren. Das wäre mein letzter Ausweg.
Viele hilfreiche Antworten auf ähnliche Fragen hier: http://stackoverflow.com/search?q=scraping+python – 3zzy
Genaue Duplikate: http://stackoverflow.com/questions/2081586/web-scraping-with-python –
Nein, kein exaktes Duplikat. Dieser erwähnt JavaScript, das andere Werkzeuge erfordert als bei der Arbeit mit statischem HTML. – hoju