2012-10-07 6 views
6

Ich schreibe eine Rake-Task, die jede Minute (möglicherweise alle 30 Sekunden in der Zukunft) von Whenever aufgerufen wird und einen abfragenden API-Endpunkt kontaktiert (pro Benutzer in unserer Datenbank). Offensichtlich ist dies nicht effizient als einzelner Thread ausgeführt, aber ist es möglich, Multithread? Wenn nicht, gibt es eine gute ereignisbasierte HTTP-Bibliothek, die die Aufgabe erledigen könnte?Multithread-Rake-Task

Antwort

12

Ich bin eine Harke Aufgabe zu schreiben, die jede Minute (möglicherweise alle 30 Sekunden in der Zukunft) von Immer wenn

Beware of Rails Startzeiten genannt werden würde, könnte es besser sein, eine Forking zu verwenden Modell wie Resque oder Sidekiq, Rescue bietet https://github.com/bvandenbos/resque-scheduler, die in der Lage sein sollte zu tun, was Sie brauchen, kann ich nicht über Sidekiq sprechen, aber ich bin sicher, dass es etwas ähnliches zur Verfügung hat (Sidekiq ist viel neuer als Resque)

Offensichtlich ist dies nicht effizient als einzelner Thread ausführen , aber ist es möglich, Multithread? Wenn nicht, gibt es eine gute ereignisbasierte HTTP-Bibliothek, die die Aufgabe erledigen könnte?

Ich würde Sie nach Tipps zu buchen ActiveRecord's find_each vorschlagen Ihre Finder Prozess effizienter zu machen, sobald Sie Ihre Chargen haben, können Sie leicht etwas mit Themen wie tun:

# 
# Find each returns 50 by default, you can pass options 
# to optimize that for larger (or smaller) batch sizes 
# depending on your available RAM 
# 
Users.find_each do |batch_of_users| 
    # 
    # Find each returns an Enumerable collection of users 
    # in that batch, they'll be always smaller than or 
    # equal to the batch size chosen in `find_each` 
    # 
    # 
    # We collect a bunch of new threads, one for each 
    # user, eac 
    # 
    batch_threads = batch_of_users.collect do |user| 
    # 
    # We pass the user to the thread, this is good 
    # habit for shared variables, in this case 
    # it doesn't make much difference 
    # 
    Thread.new(user) do |u| 
     # 
     # Do the API call here use `u` (not `user`) 
     # to access the user instance 
     # 
     # We shouldn't need to use an evented HTTP library 
     # Ruby threads will pass control when the IO happens 
     # control will return to the thread sometime when 
     # the scheduler decides, but 99% of the time 
     # HTTP and network IO are the best thread optimized 
     # thing you can do in Ruby. 
     # 
    end 
    end 
    # 
    # Joining threads means waiting for them to finish 
    # before moving onto the next batch. 
    # 
    batch_threads.map(&:join) 
end 

Dies startet nicht mehr als batch_size von Threads, warten nach jedem batch_size zu beenden.

Es wäre möglich, so etwas zu tun, aber dann haben Sie eine unkontrollierbare Anzahl von Threads, es gibt eine Alternative, von der Sie hier profitieren könnten, es wird viel komplizierter einschließlich eines ThreadPool und einer gemeinsamen Liste von Arbeiten tun, ich habe es wie bei Github so geschrieben, nicht zu spam stackoverflow: https://gist.github.com/6767fbad1f0a66fa90ac

+0

Der ThreadPool sieht gut aus! Ich werde es ausprobieren –

+0

Gute Sachen, danke :) – Robin

3

Ich würde vorschlagen, sidekiq zu verwenden, die gut im Multithreading ist. Sie können dann separate Jobs pro Benutzer in die Warteschlange einreihen, um die API abzurufen. clockwork kann verwendet werden, um wiederkehrende Jobs in die Warteschlange zu stellen.