2017-11-06 4 views
1

ich einen Körper aus einer Web-Seite zu holen, wo mit viel Zeilen eine Tabelle ist, wie folgt aus:Wie analysiert man einen bestimmten Teil der Webseite in Java?

... 
... 
<tbody> 
    <tr class="odd"> 
    <td align="center">08:00</td> 
    <td align="center">9.50</td> 
    <td>Description of event 1 </td> 
    <td align="center">7.80</td> 
    </tr> 
    <tr class="even"> 
    <td align="center">09:00</td> 
    <td align="center">11.10</td> 
    <td>Description of event 2</td> 
    <td align="center">27.40</td> 
    </tr> 
... 

ich Teile aus dieser Tabelle schneiden möchte und analysieren es zu meinem Ziel. Ich habe versucht, Teilzeichenfolge zu verwenden, aber ich weiß nicht, wo der benötigte Teil des Textes ist. Außerdem suchte ich nach regulärem Ausdruck und verschiedenen Parsern. Wie kann ich mein Problem entscheiden? Danke

+0

Was haben Sie versucht? Wenn Sie "cut string" sagen, meinen Sie auch ['String # split'] (https://docs.oracle.com/javase/7/docs/api/java/lang/String.html#split (java .lang.String))? –

+4

Sie sollten einen HTML-Parser verwenden. Sehen Sie sich https://jsoup.org/ an. – code11

Antwort

6

Sie können jsoup verwenden, um Ihre HTML zu einem Document zu analysieren und das Jsoup DOM methods zu verwenden, um Ihr HTML zu navigieren.

+0

Wo wird die Variable 'content' definiert, wenn Sie Ihre Zeilen erhalten? Sollte das "Tisch" sein? – byxor

+0

@byxor whoops, das ist was passiert, wenn Sie Code auf der Stackoverflow-Seite statt einer echten IDE ist –

1

Da es im XML-Format ist, sollten Sie von Java XML API wie DOM oder SAX tun. Oder Sie könnten eine Drittanbieter-XML-Bibliothek wie JDOM und DOM4J für die Verarbeitung verwenden.

File file = new File(Appl.class.getClassLoader().getResource("testing.xml").getFile()); 
Document document = DocumentFactory.createDocument(file); 
Element element = document.getElementById("tag22"); 
System.out.println(element.getTextContent()); 

testing.xml

<?xml version='1.0' encoding='UTF-8'?> 
<tag1 id="tag1"> 
    <tag2 id="tag22">Testing Content</tag2> 
</tag1> 
Verwandte Themen