2016-12-31 2 views
1

Auf dieser URL: http://www.ontobee.org/ontology/HP?iri=http://purl.obolibrary.org/obo/HP_0001065PHP - Konvertieren von XML/RDF in HTML

Wenn ich Elemente mit Chrome überprüfen, ich die HTML sehen:

<div xmlns="http://www.w3.org/1999/xhtml" id="mainbody"> 
     <link href="http://www.ontobee.org/public/css/ontology.css" rel="stylesheet" type="text/css" /> 
     <script src="http://www.ontobee.org/public/js/ontobee.ontology.js"></script> 
     <h3 class="title"> 
     <a href="http://www.ontobee.org/ontology/HP"> human phenotype ontology</a> 
     </h3> 
     <form action="http://www.ontobee.org/search" method="get" id="keyword-search"> 
     <input name="ontology" id="ontology" type="hidden" value="HP" /> 
     <div class="ui-widget"> 
      <strong> 
      <label for="keywords">Keywords: </label> 
      </strong> 
      <input id="keywords" name="keywords" size="30" /> 
      <input type="submit" name="submit" value="Search terms" /> 
     </div> 
     </form> 
     <p class="section-title"> 
    Class: <span class="section-title-value">Striae distensae</span></p> 
     <div class="iri">... 

ich die HTML sehen, aber wenn ich sehe die Quelle, erhalte ich XML:

<!-- 
    /////////////////////////////////////////////////////////////////////////////////////// 
    // 
    // Annotation properties 
    // 
    /////////////////////////////////////////////////////////////////////////////////////// 
    --> 

    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasRelatedSynonym"/> 
    <AnnotationProperty rdf:about="http://purl.obolibrary.org/obo/IAO_0000115"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasDbXref"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#inSubset"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasAlternativeId"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasOBONamespace"/> 

ich brauche einen Weg, um die RDF/XML in HTML pr zu konvertieren Programmatisch. Gibt es einen einfachen Weg, dies zu tun? Muss ich ihre XML-Transformationsdatei finden?

HINWEIS: Der Grund, warum ich dies tun muss, ist, weil ich eine Charge dieser Dokumente herunterladen muss. Ich muss die Daten abschaben. Sie haben eine SPARQ-API, aber ich habe bereits einen Scraper geschrieben, der dachte, dass das, was ich mir ansah, ein HTML-Dokument war. Ich schreibe selten etwas von Anfang bis Ende, ohne es zu testen, aber diesmal habe ich es getan. Es muss einen Weg geben, dies über ein Browser-Plugin zu tun, da der Browser HTML ausgeben kann.

+0

Lassen Sie mich das klarstellen: Sie erhalten Daten in einem maschinell verarbeitbaren, strukturierten Format (RDF/XML), aber Sie wollen es in ein menschenlesbares Format (HTML) umgewandelt, so dass Sie es dann können. .. _scrape_ es um es wieder in etwas strukturiertes/maschinenverarbeitbares zu verwandeln? Ich verstehe, dass Sie bereits damit begonnen haben, bevor Sie Ihren Fehler erkannt haben, aber dennoch könnte es noch effizienter (und auf lange Sicht sicherlich besser) sein, einfach Ihren Scraper aufzugeben und stattdessen einen einfachen RDF-verarbeitenden Client zu schreiben. –

+0

Ja, ich war ein bisschen voraus und schrieb das ganze Skript, jedes Detail davon, bevor ich es testete. Normalerweise würde ich die Dinge testen, während ich weitermache. Du hast Recht, ich sollte das Skript einfach aufgeben. Das Parsen der XML sollte relativ einfach sein. –

+1

Das funktioniert, aber eine tatsächliche RDF-Bibliothek, wie EasyRDF, könnte noch einfacher sein. YMMV. –

Antwort

1

Der RDF auf der Seite wird für die Klasse angezeigt. Also, nein, Sie konnten den HTML-Code der Seite nicht aus dem RDF erstellen.

Wenn Sie nach dem HTML der Seite selbst suchen, ist es einfacher für Sie, den HTML-Code aus dem inspect-Tool des Browsers zu erhalten.

+0

Das Problem ist, ich muss eine Menge dieser Seiten erhalten. Vielleicht gibt es ein Chrom- oder Firefox-Plugin, mit dem ich HTML-Charts für eine Liste von Seiten herunterladen kann. –