2009-07-06 9 views
0

Ich habe mich nur gefragt, ob es irgendwelche Ressourcen gibt, die die Verarbeitung von HTML-Dokumentstrukturen diskutiert. Zum Beispiel, wenn ich eine Seite von der New York Times habe, und für jede Seite, würde ich gerne verstehen, wo der Hauptartikel ist, wo sind die wichtigen Elemente auf der Seite. Bei einigen Websites gibt das HTML-Rohdokument einige Hinweise für diese Art der Verarbeitung. Für andere Websites gibt es im Allgemeinen nur Formatierungs-Tags (Schriftarten usw.). Ich habe mich mit OCR-Technologien beschäftigt, aber die meisten davon werden verwendet, um einzelne Elemente zu erkennen, und dies ist ein etwas anderes Problem als OCR.Verarbeitung html Dokumentstruktur

Wenn jemand irgendwelche Einsichten zu diesem Thema hat, wäre es sehr dankbar!

+0

Ich wäre überrascht, wenn dies für mehr als eine Handvoll von Websites dokumentiert wurde. Wenn sie diese Informationen nicht veröffentlichen, um sie zu konsumieren, würde ich erwarten, dass sie das als nichts für Sie betrachten. –

+0

Nun, ich möchte einfach einen allgemeinen Ansatz für diese Art von Problem der Erfassung nützlicher Inhalte, wenn Metadaten nicht vollständig oder nicht verfügbar sind – FurtiveFelon

Antwort

1

Was Sie suchen, heißt "Screen Scraping" oder "Data Scraping" - eine Google-Suche wird Ihnen eine Reihe von Ergebnissen dafür erhalten. Hier ist ein Link zur Wikipedia: Web Scraping

Sie etwas auf einer HTML-Parser bauen könnte wie hpricot

Verwandte Themen