2016-04-16 7 views
2

I Anemone Juwel in folgenden Weise bin mit:Crawl-Seite, die Anmeldung mit Anemone erfordert

  • Besuch ersten url (Samen), Seiteninhalt zur Datenbank speichern und alle Links von dieser Seite Datenbank speichern und (wieder
  • alle Verbindungen, die noch nicht in der Datenbank sind)
  • laden nächsten Link aus der Datenbank, deren Inhalt und alle anderen Links speichern Wenn es keine andere Verbindung, kriechen alle Links wieder (nach einiger Zeit) alten Inhalt zu überschreiben von neu

Das funktioniert ziemlich gut, aber gibt es irgendeine Möglichkeit, Seiten zu crawlen, die eine Anmeldung erfordern (wenn ich Benutzername und Passwort kenne)? Ich kenne Mechanize Juwel, die Funktionen zum Ausfüllen von Formularen bieten, aber ich weiß nicht, wie ich es in meinen Prozess integrieren kann (wenn es möglich ist). Oder gibt es eine andere Möglichkeit, Seiten hinter dem Login-Formular zu crawlen?

Antwort

Verwandte Themen