2010-12-28 5 views
0

Ich baue gerade einen Instapaper-Klon und benötige Hilfe beim Entwerfen des Algorithmus.Einen Instapaper-Klon erstellen

Es hat zwei Komponenten:

  1. Auszug des Haupttextblock aus einem HTML-Dokument
  2. Wenn der speichern Artikel mehr als 1 Seite hat dann Text extrahiert von allen Seiten

Sie können Leute zeigen mir in die richtige Richtung? Ich werde .NET 4 C# für dieses Projekt verwenden.

+1

Dies ist eine Art zu sagen "Ich möchte einen Compiler erstellen. Es hat zwei Komponenten, Ding, das den Code liest, und der Code-Generator. Können Sie mich in die richtige Richtung zeigen"? – Foredecker

+0

Sie werden nicht gebeten, es für mich zu tun. Ich möchte nur ein paar Empfehlungen. – Jason

+0

Was meinst du mit Frage # 2? In der Regel hat html nicht das Konzept mehrerer Seiten, es sei denn, sie werden gedruckt oder der Entwickler erstellt eine Methode zur Bereitstellung von Teilen des gesamten Dokuments. –

Antwort

1
  1. Verwenden Sie Html Agility Pack, um die benötigten Daten aus dem HTML-Dokument zu extrahieren.
  2. Wie # 1.

Ich nehme an, dass Sie nicht viel Richtung bieten, aber Sie haben mir auch nicht viel Richtung gegeben.

+0

Wie können Sie feststellen, ob sich der Artikel auf mehreren Seiten befindet? – Jason

+0

@Jason: Ich verstehe diese Frage nicht. Meinst du, wie können Sie feststellen, ob ein Artikel mehrere Seiten hat (z. B. [Versteckte Funktionen von .net] (http://stackoverflow.com/questions/9033/hidden-features-of-c) hat 11 Seiten mit Antworten)? Der einfachste Weg ist, nach URLs mit Namen oder altem Text wie Zahlen oder dem Wort "next" zu suchen, sowie nach "rel =" next "' in den 'a' Tags zu suchen. Obwohl dies etwas vorsichtig sein sollte, da einige URLs aus 100 Seiten bestehen können (z. B. Blogs oder Webcomics). – Brian