2009-08-11 10 views
2

Ich bin auf der Suche nach einem Aggregator für die redaktionellen und optierten Seiten einer Reihe von englischsprachigen Zeitungen, denen ich folgen möchte. Ziel ist es, einen HTML-Code zu generieren, der nur eine Sammlung von redaktionellen Beiträgen aus dem Dutzend Zeitungen ist, die ich international verfolgen möchte, damit ich sie morgens ausdrucken kann. Da dies eine sehr enge Anforderung ist, konnte ich nichts verfügbares bereits finden, also denke ich daran, eines alleine zu schreiben.Welche Sprache ist am besten für dieses redaktionelle und optierte Aggregatorprojekt geeignet?

Jetzt war ich ein Programmierer für ~ 8 Jahre in meinem vorherigen Leben (und bin jetzt zu der "Dunklen Seite" geleitet worden, die Wall Street nach meinem MBA ist). Ich bin heute nicht genug mit der Programmierung vertraut, um eine gute Wahl für eine Skriptsprache zu treffen, also bin ich mir nicht sicher, welche die beste Sprache dafür ist (Leistung ist kein Schlüsselproblem, Bibliotheken zum Analysieren von HTML, Texthandling sowie das Abrufen von Daten) Live-Webseiten sind wichtiger).

PS: Ich habe nichts dagegen, eine neue Sprache zu lernen (früher habe ich intensiv mit x86 ASM, C und Visual C++/MFC gearbeitet) fast ausschließlich in Win32-Umgebungen.

Antwort

1

Verwenden Python und die hervorragende lxml Bibliothek für HTML Schaben. Es unterstützt CSS-Selektoren, was ein großer Vorteil ist, und es ist ziemlich schnell. Es behandelt auch gebrochenes HTML gut.

+0

Stellen Sie sicher, dass Sie sich das Modul lxml.html ansehen. Die Dokumentation kann etwas verwirrend sein, also versuche einfach in einer interaktiven Python-Shell damit herumzuspielen - so habe ich gelernt, sie zu benutzen. – aehlke

0

interpretierte Sprachen tun gut mit Code-Generierung, sollten Sie über Perl oder Ruby denken

Verwandte Themen