2011-01-05 4 views

Antwort

4

Der beste ist derjenige, mit dem Sie am bequemsten arbeiten.

1

Es ist nicht wirklich wichtig, solange Sie die richtigen Werkzeuge verwenden, um die Arbeit zu erledigen.

Sie müssen überlegen, wo Sie Ihre Anwendung bereitstellen (Web oder Desktop), wie lange Sie eine neue Technologie/Sprache lernen und wie Bibliotheken für das Parsen von RSS und/oder XML und/oder HTML verfügbar sind. Die drei Sprachen, die Sie genannt haben, sind jedoch alle gute Kandidaten.

0

RSS-Dateien sind nur formatierte XML, die Sie über das Internet erhalten. Alles, was Sie in einer Sprache brauchen, ist, dass sie eine HTTP-Anfrage stellen kann und Möglichkeiten hat, das XML zu parsen.

0

Der Framework-Code kann in jedem Fall vorhanden sein, aber ziehen Sie die Verwendung von XSL-Transformationen (oder XPath-Abfragen) in Betracht, um XML in ein angenehmeres Format zu bringen. Espec. wenn Sie nach kleinen Teilmengen der Daten oder nach einzelnen Werten suchen.

Es ist kaum "Scraping", wenn die Quelldaten in erster Linie maschinell geparst werden sollten. :)

0

Wenn Sie mit einer bestimmten Technologie stärker sind und Sie eine tote Linie (oder andere Faktoren) haben, dann gehen Sie mit dieser Technologie, wie sie alle Fähigkeiten haben.

Wenn dies nicht der Fall ist, dann fällt es den Anforderungen des Projekts, das Sie unternehmen, und auch wenn Sie eine neue Technologie lernen wollen/können.

PHP ist die natürlichste webbasierte Technologie und Sie können eine Bibliothek wie diese verwenden Simple HTML DOM Parser (es unterstützt auch XML), um schnelle Ergebnisse zu erhalten und vertiefen in die Komplexität des Web Scraping, die PHP auch unterstützt.

Java hat ein nettes Projekt namens Web Harvest, das ich in der Vergangenheit mit guten Ergebnissen verwendet habe (obwohl Sie eine nicht standardmäßige XML-Syntax lernen, aber es ist ähnlich wie xslt) und sobald Ihr System eingerichtet ist Ihre Web Scraping kann leicht modifiziert werden.

Perl ist das stärkste, wenn es um Regex geht (Java und vor allem PHP kann ein bisschen unordentlich werden, wenn ich mit Regex finde ich) und Regex ist eine schöne Fähigkeit zu haben, je nachdem, was Sie mit Ihren Informationen tun wollen ist auch eine wiederverwendbare Option.

0

Wenn Sie eine Serveranwendung schreiben, die häufig ausgeführt werden muss und Inhalte über eine große Anzahl von Websites hinweg aggregiert, sollte die Leistung ein wesentliches Kriterium für Sie sein. Dies würde eine Sprache bedeuten, die in der Lage ist, große Datenmengen schnell zu verarbeiten.

Wenn Sie nur ein Programm benötigen, um gelegentlich auszuführen und Daten von vielen Seiten auszuwählen, dann können Sie eine spezielle Sprache in Betracht ziehen. Das Produkt TestPlan bietet eine sehr einfache Sprache, mit der Sie RSS-Inhalte schnell erfassen und auf einfache Weise verfügbar machen können.

Ich habe es in einigen wichtigen Scraping-Projekten verwendet. Die Scripts sind zwar nicht besonders schnell, aber extrem einfach zu pflegen.

Verwandte Themen