2008-08-05 12 views
16

Ich möchte einen nächtlichen Cron-Job machen, die meine Stackoverflow Seite abruft und diffs es von der Seite des Vortages, so kann ich eine Änderung Zusammenfassung meiner Fragen, Antworten, Ranking, usw.Wie läufst du eine Webseite?

Leider sehen, ich couldn Erhalte nicht die richtigen Cookies usw., damit dies funktioniert. Irgendwelche Ideen?

Auch, wenn die Beta abgeschlossen ist, wird meine Statusseite zugänglich sein, ohne sich einzuloggen?

Antwort

9

Ihre Statusseite ist jetzt verfügbar, ohne sich anzumelden (klicken Sie auf logout und versuchen Sie es). Wenn der Beta-Cookie deaktiviert ist, wird nichts zwischen Ihnen und Ihrer Statusseite angezeigt.

Für wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html 
3

Nette Idee :)

ich Sie davon ausgehen, haben die verwendet wget

--load-cookies (filename) 

könnte ein wenig helfen, aber es könnte einfacher sein, so etwas wie Mechanize zu verwenden (in Perl oder Python) einen Browser zu imitieren um eine gute Spinne zu bekommen.

2

Ich kann nicht herausfinden, wie die Cookies zu bekommen entweder zu arbeiten, aber ich konnte meine Statusseite in meinem Browser bekommen, während ich abgemeldet wurde, so dass ich gehe davon aus, dass dies funktionieren wird, sobald stackoverflow öffentlich wird.

Dies ist eine interessante Idee, aber werden Sie nicht auch Diffs des zugrundeliegenden HTML-Codes aufgreifen? Haben Sie eine Strategie, um zu vermeiden, mit einem Unterschied des HTML und nicht den tatsächlichen Inhalt zu enden?

+0

Wenn ich die Zeit hätte, würde ich eine [Schöne Suppe] machen (http://www.crummy.com/software/BeautifulSoup/) (oder etwas besser?) Skript, um die Daten schön zu kratzen, aber für den Moment bin ich nur die Linien von Text, die ich brauche. –

2

Und hier ist, was funktioniert ...

curl -s --cookie soba=. http://stackoverflow.com/users