2009-03-31 8 views
0

Wenn ich Wikipedia XML-Dumps heruntergeladen habe, gibt es eine Möglichkeit, alle internen Links aus einer XML-Datei zu entfernen?Irgendwelche internen Links aus Wikipedia-XML-Dateien entfernen?

Dank

+0

Vielen Dank für die Hilfe. –

+0

Mit welcher Methode haben Sie sich aus Neugier entschieden? –

+0

Noch nicht entschieden, weil leider nur die [[funktioniert nicht wegen der zusätzlichen Formatierung Wikipedia tut. Ich bin noch nicht so zuversichtlich auf Bots, also ist es im Moment in der Warteschleife, bis ich jemanden dafür bezahlen kann! Also, keine Methode! Danke für die Hilfe allen, sehr nützlich. –

Antwort

0

Eine Sache, die Sie tun könnten, wenn Sie sie in ein lokales Wiki importieren, ist, alle gewünschten Dateien zu importieren, dann verwenden Sie einen Roboter (zB pywikipediabot ist einfach zu bedienen), um alle internen Links loszuwerden .

+0

Besser noch, wenn dein Wiki irgendwo benutzt wird, wo du Zugang zum Internet hast, könntest du alle internen Links zu [[wikipedia: Seitenname | Seitenname]] ändern, dann würden sie auf ihre Originalartikel zurückkommen. –

0

Wikipedia Datenbank-Dumps und Informationen über diese Verwendung befinden sich hier: Wikipedia:Database download. Sie sollten dies tun, anstatt ein Skript zu schreiben, um Wikipedia zu kratzen.

+0

Yeah gefunden, sorry, ich habe meine Frage wirklich falsch! Wie kann ich die internen Links aus den XML-Dateien entfernen? –

-1

Sie können in Ihrem bevorzugten Texteditor suchen und ersetzen, indem Sie [[und]] durch nichts ersetzen.

0

Ich würde versuchen, XSLT zu verwenden, um die XML-Datei in eine andere XML-Datei zu transformieren.

Verwandte Themen