2017-03-18 6 views
1

Ich versuche, jeden Text Inhalt von einer Wikipedia-Seite einschließlich der Tabellen mit API-Sandbox für die Wikipedia-Seite auf Ballon_d'Or zu extrahieren.Wie man WikiTables von der Wikipedia-Seite nach API extrahiert?

habe ich versucht, die angegebene query:

https://en.wikipedia.org/w/api.php?action=query&format=json&prop=extracts&titles=Ballon_d%27Or&explaintext=1&exsectionformat=wiki 

aber es gibt mir nur den Textinhalt, ohne den Inhalt aus der Wiki Tabelle wie diese:

enter image description here

Gibt es eine Möglichkeit, könnte den Tabelleninhalt in einem Textformat zusammen mit den bereits erhaltenen Textinformationen erhalten?

Alternativ kann ich die Web-Crawling-Technik mit schönen Suppe versuchen, aber ich wollte zuerst nach der Abfrage-Methode suchen.

+1

Nein, werden Sie irgendeine Art von HTML-Parser verwenden. – Tgr

Antwort

Verwandte Themen