2016-05-12 22 views
0

Ich bin neu in Web-Scraping, und ich verwende das folgende Werkzeug und Verfahren verschrotten:Web Schaben Oracle (ATG) Commerce

  • I R verwenden (mit Paketen Beuge, XML, etc.) im Internet zu lesen Seiten (mit einer URL-Verknüpfung) und htmlTreeParse-Funktion zum Analysieren der HTML-Seite.
  • Dann, um zu wissen, die Daten zu bekommen, die ich will, verwende ich zuerst das Entwicklerwerkzeug i Chrome, um den Code zu inspizieren.
  • Wenn ich weiß, in welchem ​​Knoten die Daten sind, verwende ich XpathApply, um sie zu bekommen.

Normalerweise funktioniert es gut. Aber ich hatte ein Problem mit dieser Seite: http://www.sephora.fr/Parfum/Parfum-Femme/C309/2

  • Wenn Sie auf den Link klicken, werden Sie die Seite laden, und in der Tat ist es die Seite 1 (der Produkte).
  • Sie müssen die URL erneut laden (durch ein zweites Mal die URL eingeben), um die Seite 2 zu erhalten.
  • Wenn ich den üblichen Prozess verwenden, um die Daten zu lesen. Die Funktion htmlTreeParse gibt mir immer die Seite1.

Ich habe versucht, mehr diese Website zu verstehen:

Dies nicht zu wissen, hilft die Auswahl, die ich getroffen habe.

Könnten Sie bitte helfen:

  • Wie kann ich mehr Produkte zugreifen?

Danke

+0

Warum versuchen Sie, diese Website zu scrappen und haben Sie die Erlaubnis von den Sephora, dies zu tun? – bated

Antwort

0

ich die Lösung gefunden: Selen! Ich denke, dass es das ultimative Werkzeug für Web Scraping ist. Ich habe einige Fragen zum Web Scraping gestellt, jetzt ist mit Rselenium fast alles möglich.