Ich fand ein Python-Skript (here: Wikipedia Extractor), die Klartext von (English) Wikipedia database dump generieren kann. Wenn ich diesen Befehl (wie es auf den Skript Seite angegeben wird):Generieren von Klartext aus einer Wikipedia-Datenbank dump
$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted
ich diesen Fehler:
File "enwiki-latest-pages-articles.xml", line 1 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">
^
SyntaxError: invalid syntax
Ich Ausführung des Skripts mit Python 2.7.6 & Cygwin unter Windows 7.
Ich hoffe, wenn jemand dieses Skript bereits benutzt hat oder Erfahrung mit Python kann mir helfen, diesen Fehler zu lösen.
Vielen Dank im Voraus!
Vielen Dank für Ihre Antwort. Obwohl die richtige Reihenfolge ist, was ich verwendet habe, wie es auf der Seite des Skripts angegeben ist, habe ich versucht mit dem, was Sie vorgeschlagen haben und bekam: "Usage: WikiExtractor.py [Optionen]", was bedeutet, dass der Dateiname zuerst kommen sollte. – Asim
@Asim Ich denke, du hast fast Recht - in Bezug auf den Inhalt der Datei sollte an den Wiki-Extraktor geleitet werden, wie zum Beispiel 'cat enwiki-neuste-seiten-artikel.xml | python WikiExtractor.py -b 500K -o extrahiert'. Versuche es. – alecxe
Wow, endlich funktioniert es! Vielen Dank, ich schätze es sehr. – Asim