2014-03-31 7 views
7

Ich fand ein Python-Skript (here: Wikipedia Extractor), die Klartext von (English) Wikipedia database dump generieren kann. Wenn ich diesen Befehl (wie es auf den Skript Seite angegeben wird):Generieren von Klartext aus einer Wikipedia-Datenbank dump

$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted 

ich diesen Fehler:

File "enwiki-latest-pages-articles.xml", line 1 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">

^ 
SyntaxError: invalid syntax 

Ich Ausführung des Skripts mit Python 2.7.6 & Cygwin unter Windows 7.

Ich hoffe, wenn jemand dieses Skript bereits benutzt hat oder Erfahrung mit Python kann mir helfen, diesen Fehler zu lösen.

Vielen Dank im Voraus!

Antwort

14

Das erste Argument zu python sollte der Skriptname sein.

Sie müssen wahrscheinlich xml und py Dateinamen tauschen:

$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted 
+0

Vielen Dank für Ihre Antwort. Obwohl die richtige Reihenfolge ist, was ich verwendet habe, wie es auf der Seite des Skripts angegeben ist, habe ich versucht mit dem, was Sie vorgeschlagen haben und bekam: "Usage: WikiExtractor.py [Optionen]", was bedeutet, dass der Dateiname zuerst kommen sollte. – Asim

+4

@Asim Ich denke, du hast fast Recht - in Bezug auf den Inhalt der Datei sollte an den Wiki-Extraktor geleitet werden, wie zum Beispiel 'cat enwiki-neuste-seiten-artikel.xml | python WikiExtractor.py -b 500K -o extrahiert'. Versuche es. – alecxe

+0

Wow, endlich funktioniert es! Vielen Dank, ich schätze es sehr. – Asim

Verwandte Themen