2010-05-30 10 views
5

Ich möchte jede Webseite in eine logische Darstellung der Seite zurückentwickeln. Zum Beispiel, wenn eine Webseite ein Menü hat, dann möchte ich eine logische Menüstruktur vielleicht in XML. Wenn die Webseite einen Artikel hat, möchte ich einen Artikel-XML-Knoten, wenn er einen Titel für den Artikel hat, möchte ich einen Titel-XML-Knoten. Im Grunde möchte ich die logische Form der Webseite ohne irgendeine der Benutzerschnittstelle.Reverse Engineer einer Webseite

Dieses logische Modell könnte entweder Objekte in Code oder XML sein, es spielt keine Rolle, der wichtige Teil ist, dass es identifiziert hat, was alles auf der Seite bedeutet.

Antwort

3

Klingt wie, was Sie wollen, erfordert ein Mensch, um den Inhalt einer Seite zu kategorisieren.

Dies könnte automatisiert werden, aber es würde falsch positive Ergebnisse haben und nicht in jedem Fall funktionieren.

Zum Beispiel, was passiert, wenn eine Seite eine ul für ein Menü verwendet und eine andere verwendete Tabellenzellen?

Möchten Sie dies nur für eine Website oder eine beliebige Website im Internet?

0

Wie über die XML bereits auf der Seite Parsen

http://en.wikipedia.org/wiki/XHTML

+3

sehen, ich würde auch vorschlagen, dass er das gesamte Internet zu XHTML umwandelt;) – Onots

+0

ich, dass GIF von Windows finden Makes will Transfer-Dialog mit dem Titel "Download des Internets ..." – alex

+2

@alex - http://www.gifbin.com/982378 :) Obwohl, scheint die Größe jetzt ein bisschen klein .... –

Verwandte Themen