Erhalten von statischen HTML-Dateien von Wikipedia XML-Dump

Ich würde gerne in der Lage sein, relativ aktuelle statische HTML-Dateien aus der enormen (auch wenn komprimiert) Englisch Wikipedia XML-Dump-Datei enwiki-latest-pages-articles.xml.bz2 I heruntergeladen von der WikiMedia dump page zu erhalten. Es scheint ziemlich viele Tools zu geben, obwohl die Dokumentation dafür ziemlich knapp ist, also weiß ich nicht, was die meisten von ihnen machen oder ob sie mit den neuesten Dumps auf dem neuesten Stand sind. (Ich bin ziemlich gut darin, Webcrawler zu erstellen, die durch relativ kleine HTML-Seiten/-Dateien crawlen können, obwohl ich mit SQL und XML schrecklich bin, und ich erwarte nicht, dass ich für mindestens ein weiteres Jahr sehr gut mit ihnen umgehen kann.) Ich möchte in der Lage sein, durch HTML-Dateien, die von einem Dump offline erhalten werden, zu crawlen, ohne auf Online-Crawlen von Wikipedia zurückgreifen zu müssen.Erhalten von statischen HTML-Dateien von Wikipedia XML-Dump

Kennt jemand ein gutes Werkzeug, um statische HTML-Dateien von neueren Wikipedia XML-Dumps zu erhalten?

Quelle

2012-05-23 Brian Schmitz

Zuerst import the data. Erstellen Sie dann die HTML-Dateien mit DumpHTML. Obwohl es in der Theorie einfach ist, könnte dieser Prozess in der Praxis aufgrund des Datenvolumens kompliziert sein, und DumpHTML wird ein wenig vernachlässigt, so zögern Sie nicht zu ask for help.

Quelle

2012-05-23 07:21:16 MaxSem

Auch könnte es Wochen oder Monate dauern. Ich habe Wiktionary-Deponien vor einigen Jahren importiert, die mehrere Größenordnungen kleiner waren, und es dauerte mehrere Tage. Es wird auf einer sehr kräftigen Maschine helfen. Ich frage mich, ob uns irgendjemand sagen kann, wie lange es dauerte, sie zu importieren. – hippietrail

Verarbeitungszeit wird definitiv eine Überlegung sein. Ich werde vielleicht irgendwann einen bulligen Desktop-Computer bekommen, obwohl ich nicht weiß, ob das ausreichen würde, um mit der Größenordnung fertig zu werden, über die wir hier reden. (Ich frage mich, ob es eine parallele Lösung gibt.) Ich weiß, dass statische HTML-Dumps verfügbar sind, obwohl das neueste aus dem Jahr 2008 stammt, was weit weniger als ideal ist. –

Was ist mit dem dynamischen Rendern nur der Teile, die zum Rendern einer bestimmten Seite als Teil eines Skripts erforderlich sind, das mit einer offline angepassten Ubuntu-Distribution gebündelt ist? @hippietrail –

Erhalten von statischen HTML-Dateien von Wikipedia XML-Dump

Antwort

Verwandte Themen