2009-07-24 2 views
1

Ich versuche, ein Programm zu schreiben, das Firmennamen aus einer Textdatei nimmt und sie auf einer Suchmaschinen-Website durchsucht (SECs Edgar-Suche). Bei jeder Suche werden in der Regel 1-10 eindeutige Suchergebnislinks angezeigt. Daher möchte ich curl verwenden, um auf den Link mit dem entsprechenden Firmennamen zu klicken. Die Link-Seite hat eine kurze Zusammenfassung mit dem Begriff "State of incorporation:" und dann den Namen des Staates. Ich hoffe, den Staatsnamen zu analysieren. Ich habe Probleme zu verstehen, wie HTML Parsing und Curl und ihre Klassen zu verwenden. Ich würde jede mögliche Hilfe wie eine kurze Übersicht der Schritte oder nur irgendeinen Rat überhaupt schätzen. Vielen Dank.wie htmlparsing und curl in JAVA für diese Aufgabe zu verwenden ...?

Antwort

1

Angenommen, der HTML-Code ist ziemlich einfach, verwenden Sie etwas wie die Mozilla Java HTML Parser. Die getting started guide gibt Ihnen weitere Details zum Erstellen des DOM. Java hat builtin APIs zum Herunterladen von Inhalten aus dem Internet, und diese werden wahrscheinlich für Sie ausreichen (anstatt "curl" zu verwenden).

Sobald Sie ein DOM haben, können Sie die Standard-DOM-APIs verwenden, um nach den gewünschten Links und Elementen zu suchen.

Verwandte Themen