ich einen Web-Crawler schreibe, die mehrere URLs gleichzeitig verarbeitet und arbeitet in folgender Weise:Verarbeitungsreihenfolge der Pythons Threading-Modul
Es wird eine URL aus einer Liste von URLs in seed_list enthalten. txt,
Es crawlt es und schreibt die Daten in data.txt;
genauso wie die meisten Webcrawler arbeiten.
Wenn ich single-threaded mache, kann ich die Daten in data.txt in der gleichen Reihenfolge wie die URLs in seed_list.txt bekommen, aber wenn es Multithreading ist, scheint ich nicht in der Lage zu kontrollieren es, wie jeder Thread schreibt die Daten in data.txt, sobald es fertig ist.
Gibt es eine Möglichkeit, meinen Web-Crawler Multi-Threading zu machen, aber die ursprüngliche Reihenfolge beibehalten?
Vielen Dank!
@Lance, Ignacio und Maksym,
danke Ihnen allen für Ihre Hilfe - Ihre Antworten mich auf jeden Fall in die richtige Richtung weisen.
Vielen Dank für mich in die richtige Richtung. – BananaOnTheWall