Ich muss ein Programm entwerfen, das bestimmte vier oder fünf Wort Phrasen über die gesamte Wikipedia-Sammlung von Artikeln findet (ja, ich weiß, es ist viele Seiten, und ich brauche keine Antworten aufrufen Ich bin ein Idiot dafür.Crawlen aller Wikipedia Seiten für Phrasen in Python
Ich habe nicht viele Sachen wie diese vor programmiert, so gibt es zwei Probleme, die ich sehr etwas Hilfe mit schätzen würde:
Erstens, wie ich das Programm zu bekommen wäre in der Lage zu kriechen durch alle Seiten (dh nicht jede der Millionen von Seiten Hardcoding. Ich habe alle Artikel auf meine Festplatte heruntergeladen, aber ich bin mir nicht sicher, wie ich das Programm durch jedes im Ordner durchlaufen kann) EDIT - Ich habe alle Wikipedia-Artikel auf meiner Festplatte
Die Schnappschüsse der Seiten enthalten Bilder und Tabellen. Wie würde ich nur den Haupttext des Artikels extrahieren?
Ihre Hilfe zu einem der Probleme wird sehr geschätzt!
google search: 'site: wikipedia.org word1 word2 word3 word4'. Wikipedia wird es nicht mögen, wenn Sie die gesamte Seite durchsuchen, und ich bezweifle, dass Sie auch am Ende des Monats die Bandbreitenrechnung haben möchten. –
Sie wären wahrscheinlich besser dran, wenn Google die Seite für Sie sucht und dann die Suchergebnisse scrappt. Überprüfen Sie einfach, dass die Seite eine Wikipedia-URL ist und dass sie den Ausdruck enthält. – aaronasterling