Ich habe ein Projekt, wo ich alle Wikipedia-Artikel, die zu einer bestimmten Kategorie gehören, sammle, den Dump aus Wikipedia herausziehe und in unsere db lege.Gibt es einen Parser/Weg zum Parsen von Wikipedia-Dump-Dateien mit Python?
Also sollte ich die Wikipedia-Dump-Datei analysieren, um die Sachen zu erledigen. Haben wir einen effizienten Parser, um diese Aufgabe zu erledigen? Ich bin ein Python-Entwickler. Daher bevorzuge ich jeden Parser in Python. Wenn nicht vorschlagen, und ich werde versuchen, einen Port davon in Python zu schreiben und es ins Web zu bringen, so dass andere Personen davon Gebrauch machen oder es zumindest versuchen.
Also alles, was ich will, ist ein Python-Parser, um Wikipedia-Dump-Dateien zu analysieren. Ich habe angefangen, einen manuellen Parser zu schreiben, der jeden Knoten analysiert und alles erledigt.