2010-02-25 25 views
5

Ich bin auf der Suche nach einer allgemeinen API/Web Service/Tool/etc ..., die eine bestimmte HTML - Seite zu einem RDF - Diagramm so spezifisch wie möglich (wahrscheinlich mit einer Back - Bone - Ontologie und/oder Mapper).Konvertieren von HTML in RDF

+1

Haben Sie eine Kontrolle über den Inhalt des HTML-Dokuments? Oder muss es ein beliebiges Dokument sein? – Scott

+0

Es kann ein beliebiges HTML-Dokument sein. Ich muss die Struktur des HTML-Dokuments in ein RDF-Diagramm extrahieren. Wenn die Konvertierung einen Backbone-Mapper/Ontologie verwendet, dann ist es noch besser. – jaxvy

+0

Es sieht so aus, als könnte XSPARQL dies mit einer benutzerdefinierten Abfrage erreichen, die nach einer Ontologie geschrieben wurde ... – jaxvy

Antwort

2

Ich verwendete XQuery, um die Daten aus dem gegebenen Satz von Webseiten zu extrahieren. Ich musste benutzerdefinierte Abfragen für die Webseiten schreiben. Ich denke, dies ist der einfachste Ansatz für eine bestimmte Menge von HTML-Dateien. Es ist jedoch offensichtlich nicht gut für den allgemeinen Fall. Für einen anderen Satz von Webseiten müssen andere benutzerdefinierte Abfragen geschrieben werden.

2

Haben Sie bewiesen GRDDL?

GRDDL ist eine Technik für RDF Erhalten Daten aus XML-Dokumenten und in insbesondere XHTML-Seiten.

0

Ich benutzte JSoup, um Daten aus HTML zu scraphen. Es verwendet jQuery-Stil der Abfrage von HTML-DOM, mit denen ich bereits vertraut war, so dass es wirklich einfaches Tool für mich war. Ich finanziere es auch ziemlich robust, aber ich brauchte es nur, um 3 Datenquellen zu scrappen, also habe ich noch keine reichen Erfahrungen mit diesem Tool. jsoup