2009-06-17 2 views
5

Google Finance API ist unvollständig - viele der Figuren auf einer Seite wie:Finanzdaten von Google Finance zu erhalten, die nicht in den Anwendungsbereich der API

http://www.google.com/finance?fstype=ii&q=NYSE:GE

sind über die API nicht verfügbar.

Ich brauche diese Daten, um Unternehmen an kanadischen Börsen nach der Formel von Greenblatt, verfügbar über Google-Suche nach "greenblatt index scans", zu bewerten.

Meine Frage: Was ist der intelligenteste/sauberste/effizienteste Weg, auf die Daten auf diesen Webseiten zuzugreifen und sie zu verarbeiten? Ist in diesem Fall die mühsame Herangehensweise wirklich notwendig und wenn ja, wie geht man am besten vor? Ich lerne gerade Python für Projekte, die mit diesem Thema zu tun haben.

Antwort

4

Sie könnten versuchen, Google zu bitten, die fehlenden APIs bereitzustellen. Andernfalls stecken Sie fest mit screen scraping, die nie Spaß macht, anfällig für ohne Vorankündigung zu brechen, und wahrscheinlich gegen die Nutzungsbedingungen von Google.

Aber wenn Sie immer noch einen Screen Scraper schreiben wollen, ist es schwer, eine Kombination von mechanize und BeautifulSoup zu schlagen. BeautifulSoup ist ein HTML-Parser und mechanize ist ein Python-basierter Webbrowser, mit dem Sie sich anmelden, Cookies speichern und generell wie jeder andere Webbrowser navigieren können.

0

Scraping Web-Seiten immer kotzt, aber ich würde empfehlen, sie zu xml (via ordentlich oder einer anderen HTML -> XML-Programm) zu konvertieren. Und dann unter Verwendung von XPath-Knoten zu gehen, die Sie interessiert sind

3

BeautifulSoup würde Seien Sie die bevorzugte Methode der HTML-Analyse mit Python

Haben Sie neben Google (z. B. Yahoo Finance API) Optionen untersucht?

+0

Danke, ich werde in BeautifulSoup schauen. Sie haben recht, dass Yahoo Finance API vollständiger ist - leider hat Yahoo nicht die notwendigen Daten, wenn es um kanadische Aktien geht. – Marco

Verwandte Themen