Haben Sie etwas wie Selenium oder PhantomJS versucht? Dadurch können Sie einen Webbrowser auf programmierbare Weise ausführen, und dann laufen die Javascript-/Client-Teile genauso wie beim manuellen Durchsuchen. Wenn Sie beispielsweise nur HTML und Javascript in den Python-Speicher ziehen, kann Python dieses Javascript nicht wie Ihr Browser ausführen, und abhängig von der Site können 99% der Interaktion in diesem Javascript stattfinden.
Wenn Sie in "Entwicklerwerkzeuge" auf die Registerkarte "Netzwerk" gehen oder Firebug einen Hinweis darauf geben, welche Anforderungen gestellt werden, ist dies möglicherweise nicht immer die beste Lösung. Zum Beispiel feuern einige Websites Dutzende kleiner AJAX-Anfragen ab, um eine geringfügige Interaktion auf ihrer Website zu ermöglichen (da sie Logging, Analysen, Werbung, Echtzeitbenachrichtigungen usw. durchführen) und die Anfrage-URLs (manchmal absichtlich) sein können. kryptisch oder kompliziert. Sie können möglicherweise nicht herausfinden, was jede URL und Parameter tatsächlich tut, aber Sie können erkennen, dass das Scrollen ein wenig nach unten und klicken Sie auf "Weiter" Pfeil erhält die Bilder, die Sie auf dem Bildschirm angezeigt werden sollen.
Einige Websites versuchen auch, das Scrappen von Nicht-Browsern zu verhindern (um zu versuchen, das eklatante Ernten ihrer Daten zu beschränken und die Nutzung für den Menschen zu erhöhen). Sie werden kleine "Beacons" in den clientseitigen Code einbetten, und wenn diese Beacons nicht mit Ihren anderen Anfragen verknüpft sind, blockieren sie Ihre IP. Es sollte fast immer Wege geben um diese Dinge, aber es macht es schwieriger.
Andere Dinge wie Cookies oder HTML-5-Speicher sind ein weiteres Problem.
Warum der Downvote? – DrewSSP
Sie werden downvoted, denn bevor Sie fragen, sollten Sie etwas versuchen und dann kommen und fragen, was nicht funktioniert. Providing Code ist ein wichtiger Teil einer Frage –