Größtes Problem, das ich mit Selen habe, ist die lange Wiederöffnungszeit des Browsers (damit es alle paar Minuten abkratzt). Ich benutze auch Proxies und mehrere Browser mit Python-Threading - Alle starten/stoppen alle paar Minuten (wenn neue Job kommt)Python/Sellerie/Selen kontinuierliche Aufgabe (Browser erneut öffnen)
0 Threading bedeutet auch nur 1 CPU verwendet wird und die Leistung leidet.
Ich habe darüber nachgedacht, Sellerie (Out-of-Box-Multi-Core-Unterstützung) zu verwenden und Arbeiter (verschiedene Proxy/Browser) unbegrenzt laufen lassen (While-Schleife) mit offenen Instanzen von Selen-Browsern warten, um genau zu werden URLs zu kratzen - Feed über etwas wie redis.
Ist es eine gute Idee, kontinuierliche Aufgaben wie diese mit Sellerie zu betreiben? Gibt es einen besseren Weg, es zu tun?