Wie man WikiTables von der Wikipedia-Seite nach API extrahiert?

Ich versuche, jeden Text Inhalt von einer Wikipedia-Seite einschließlich der Tabellen mit API-Sandbox für die Wikipedia-Seite auf Ballon_d'Or zu extrahieren.Wie man WikiTables von der Wikipedia-Seite nach API extrahiert?

habe ich versucht, die angegebene query:

https://en.wikipedia.org/w/api.php?action=query&format=json&prop=extracts&titles=Ballon_d%27Or&explaintext=1&exsectionformat=wiki

aber es gibt mir nur den Textinhalt, ohne den Inhalt aus der Wiki Tabelle wie diese:

Gibt es eine Möglichkeit, könnte den Tabelleninhalt in einem Textformat zusammen mit den bereits erhaltenen Textinformationen erhalten?

Alternativ kann ich die Web-Crawling-Technik mit schönen Suppe versuchen, aber ich wollte zuerst nach der Abfrage-Methode suchen.

Nein, werden Sie irgendeine Art von HTML-Parser verwenden. – Tgr

Verwenden action = parse statt query:

https://en.wikipedia.org/w/api.php?action=parse&page=Ballon_d'Or&prop=text

von &section=2 verwenden Sie wird Winners den zweiten Abschnitt zuzugreifen.

Dies vielleicht wird Ihnen helfen, später auch: Regular expression to remove HTML tags

2017-03-19 08:50:56 Termininja

Antwort