2016-04-07 9 views
0

Ich versuche, ein HTML-Dokument zu verarbeiten. Das ist golang.org/x/net/html 's Parse gibt *html.Node mit nil Wert, err ist auch Null, das ist irgendwie seltsam, denn wenn Dinge nicht von Parse richtig verarbeitet werden, sollte ich einen Fehler bekommen!net/html analysiert Dokument, gibt nil * html.Node zurück, egal was

Dies ist mein Code:

package main 

import (
    "bytes" 
    "golang.org/x/net/html" 
    "io/ioutil" 
    "log" 
) 

func main() { 
    html, err := ioutil.ReadFile("html/simple_01.html") 
    if e != nil { 
     fmt.Fatal(e) 
    } 
    doc, err := html.Parse(bytes.NewReader(html)) 
    if err != nil { 
     log.Fatal(err) 
    } 
    // locate <body> 
    var body *html.Node 
    for s := doc.NextSibling; s != nil; s = s.NextSibling { 
     if s.Data == "body" { 
      body = s 
      break 
     } 
    } 
    log.Println(body) 
} 

log.Println(body) druckt nil. Auch Drucken doc druckt nil, was seltsam ist.

Hier ist das HTML-Dokument Ich teste gegen

<!DOCTYPE html> 
<html> 

<head> 
    <meta charset='utf-8'> 
    <title>Sample page - 01</title> 
</head> 

<body> 
    <p>Aspernatur vel molestiae eius sed sunt doloremque. Ipsa sed voluptate expedita tempore id. Ab nobis delectus magnam.</p> 
    <p>Beatae id mollitia nesciunt nesciunt qui explicabo cum. Aspernatur est molestiae laudantium assumenda consequuntur. Odit mollitia non inventore iusto. Id nihil voluptatem vitae. Fugit odio dolores atque sed.</p> 
    <p>Qui dolorem ipsum fugit vitae consequuntur suscipit debitis iste. Dignissimos impedit nobis quas facilis. Quia dignissimos perspiciatis quia debitis. Rerum beatae repellat architecto nostrum nulla facere rerum.</p> 
    <p>Quas natus ad qui excepturi dolorem. Quas dolorum dolores voluptatem distinctio quisquam culpa et. Ipsam voluptatem suscipit earum reprehenderit. Quos laudantium occaecati quis similique. Numquam rerum sunt rerum et necessitatibus. Laboriosam modi iure praesentium voluptates atque adipisci et.</p> 
    <p>Blanditiis dolores nemo quos voluptatem quo quia modi. Quia et alias nesciunt sint voluptatum omnis. Nihil minima ipsa magnam qui amet ea. Blanditiis laborum nihil tempora aliquam.</p> 
    <p>Ullam molestiae omnis magni ratione exercitationem minima. Sed sequi fugiat laborum omnis voluptas. Debitis sit expedita optio et at qui.</p> 
    <p>Fuga iusto quo eum sequi eum sint pariatur ipsam. Alias nisi maiores illum est ab culpa voluptas quidem. Veritatis eum qui deserunt aspernatur quo officia et ipsam.</p> 
    <p>Aliquam id autem earum autem eaque. Dolores veniam animi voluptatem. Et est nam culpa consequatur et ex distinctio. Quis iure sequi maiores quibusdam vel nostrum architecto et. Quisquam unde qui pariatur doloremque rerum.</p> 
    <p>Dicta est est fugit et architecto. Quia culpa vel error deleniti. Voluptatem fuga omnis eius ea et voluptatum dolor.</p> 
    <p>Eaque esse sint voluptatem praesentium ut sit. Fugiat ratione enim doloremque dolor asperiores. Tempora eveniet et aut.</p> 
</body> 

</html> 

Was mache ich falsch?

+0

In Ihrer ersten Fehlerbehandlung, verwenden Sie 'e' statt' err'. Was bekommen Sie auch, wenn Sie 'html' aus dem Lesen der Datei ausgeben? – PieOhPah

Antwort

2

In Ihrem Codebeispiel gibt es mehrere Tippfehler, aber das Hauptproblem besteht darin, dass Sie versuchen, das nächste Geschwister des Stammknotens zu erhalten. Als erstes müssen Sie den HTML-Tag bekommen und von dort gehen Sie nach unten auf das erste Kind und dann die Schleife durch seine Geschwister:

package main 

import (
    "bytes" 
    "golang.org/x/net/html" 
    "io/ioutil" 
    "log" 
) 

func main() { 
    htmlfile, err := ioutil.ReadFile("html/simple_01.html") 
    if err != nil { 
     log.Fatal(err) 
    } 

    doc, err := html.Parse(bytes.NewReader(htmlfile)) 
    if err != nil { 
     log.Fatal(err) 
    } 

    var htmlTag = doc.FirstChild.NextSibling 
    var body *html.Node 
    for s := htmlTag.FirstChild; s != nil; s = s.NextSibling { 
     if s.Data == "body" { 
      body = s 
      break 
     } 
    } 
    log.Println(body) 
} 
+1

Tippfehler passieren, wenn Sie den gesamten relevanten Code aus verschiedenen Dateien in eine Datei einfügen – shackra

+0

geschieht mit den Besten von uns :-) – tonisuter

Verwandte Themen