Ich arbeite an einem Projekt, wo ich HTML für das Extrahieren von Daten von einer Webseite analysieren muss. Ich benutze Jsoup in Java. Ich muss Daten aus den folgenden Inhalten extrahieren.Parsing HTML href Attribut
<tr>
<td><small><a href="http://www.timeanddate.com/worldclock/fixedtime.html?iso=20160821T2100&p1=248" target="_blank">2016/08/21 21:00</a></small></td>
<td><small><a href="https://agc003.contest.atcoder.jp">AtCoder Grand Contest 003</a></small></td>
</tr>
kann ich den Wert Contest Namen und Zeit erhalten, aber, wie die URL zu extrahieren. Ich möchte die Contest URL https://agc003.contest.atcoder.jp
bekommen, wie bekommt man das ??
EDIT: Hier ist mein Code
private void getAC() throws IOException {
Document doc = Jsoup.connect("https://atcoder.jp/").userAgent(Desktop.getDesktop().toString()).get();
Element table = doc.getElementsByClass("table-responsive").get(1);
Elements contestStartTime = table.getElementsByTag("td");
int cnt = 1;
for (Element i : contestStartTime) {
System.out.println(cnt + ". " + i.html());
cnt++;
}
}
Ich bin nicht f vertraut mit JSoup oder Java, aber ich würde die Datei laden, lesen Sie Zeile für Zeile und verwenden Sie ein Regex-Muster, um die benötigten suchen, dann analysieren Sie die URL aus dieser Zeile. – dinotom
Kannst du deinen Code hinzufügen, um den Namen und die Zeit des Wettbewerbs zu erhalten? – TDG
Da die Tags anscheinend keine ID oder Anything haben, um sie anzusprechen, bin ich mir nicht wirklich sicher. Um jedoch die URL zu erhalten, sobald Sie das Element finden, ist es einfach. 'Elements.attr (" href ")' sollte dir den Wert –