2010-12-09 4 views
1

Ich versuche scrape Google Reader, aber ich habe Probleme ... Ich möchte google Leser anmelden und einen gültigen Cookie erhalten ... dann versuchen Sie, in diese Seite:Wie kratze ich Google Reader mit mechanize (mit Cookies)

'http://www.google.es/reader/atom/user/-/state/com.google/reading-list' 

wenn meine Cookies arbeiten, und ich angemeldet bin in ich muss nur "user/-/" setzen und es wird in meinem google Reader XML-Version ....

es ist in der Theorie geben ... Ich logge mich in Google Reader ein und es leitet weiter ... dann kopiere ich meine SID .... und erstelle einen manuellen Cookie mit diesem und der API-Information des Google Readers

http://code.google.com/p/pyrfeed/wiki/GoogleReaderAPI 

name SID 
domain .google.com 
path/
expires 1600000000 

mit meinem Cookie erstellen Ich versuche innen eingeben:

'http://www.google.es/reader/atom/user/-/state/com.google/reading-list' 

aber es nicht funktionieren .... Ich glaube, ich bin zu schaffen mein Plätzchen in einem schlechten Weg, aber ich lese die API über CookieJar und Mechanize::Cookie, aber ich finde kein Beispiel darüber, wie man es benutzt ... Ich habe auf verschiedene Arten versucht, aber keine funktioniert ... bitte kann mir jemand helfen, wie man diesen Cookie benutzt ....

+0

Können Sie mehr Informationen darüber geben, was Sie meinen, wenn Sie "es nicht funktionieren" sagen? Welche Fehler oder Ausnahmen sehen Sie? Können Sie einige Codebeispiele anzeigen? –

+0

was ich im Allgemeinen vorschlagen kann ist, zuerst mit der Authentifizierung, die Sie hier beschönigt haben, umzugehen. Zum Beispiel sind eine SID und ein Token erforderlich, wie in den Google Reader-Dokumenten beschrieben. Auch, wie der Tin Man vorschlägt, sind der tatsächliche Code und das Ergebnis zur Fehlerbehebung erforderlich. (Entfernen Sie Ihr Passwort, etc.) – Thufir

Antwort

1

Wir machen alle unsere Web Scraping mit iMacros (teilweise frei/Open Source, teilweise kommerziell). Das funktioniert gut. Egal, was Sie verwenden, Sie brauchen etwas, das einen echten Web-Browser automatisiert. Andere Optionen sind Selenium oder Watir, obwohl diese mehr auf Web-Tests ausgerichtet sind.