Ich bin auf der Suche nach einer Anwendung neu zu programmieren, um Spikes in Tweets besser zu behandeln. Ich ziehe für die Datenbanklösung zu Heroku und MongoDB (entweder MongoLab oder MongoHQ) um.High-Volume-MongoDB mit Twitter-Streaming-API, Ruby on Rails, Heroku-Setup
Während bestimmter Nachrichtenereignisse könnte das Tweet-Volumen auf 15.000/Sekunde ansteigen. Normalerweise parse ich bei jedem Tweet den Tweet und speichere verschiedene Daten wie Benutzerdaten usw. Meine Idee ist es, die rohen Tweets in einer separaten Sammlung zu speichern und einen separaten Prozess zu verwenden, der rohe Tweets sammelt und analysiert. Das Ziel hier ist, wenn es eine massive Spitze in den Tweets gibt, meine Anwendung nicht versucht, alle diese zu analysieren, aber im Wesentlichen die rohen Tweets in einer anderen Ansammlung zurückstaut. Wenn das Volume langsamer wird, kann der Prozess den Rückstand im Laufe der Zeit beheben.
Meine Frage ist dreifach:
Kann MongoDB diese Art von Volumen mit einer Rate von 15.000 Tweets pro Sekunde in Bezug auf Einsätze in eine Sammlung handhaben?
Irgendeine Idee auf dem besseren Setup: MongoHQ oder MongoLab?
Irgendwelche Rückmeldungen zum gesamten Setup?
Vielen Dank!
Ein bisschen spät auf diesem, aber ein [neuer Blogbeitrag] (http://blog.hartleybrody.com/asynchronous/) erklärt, wie eine Methode * log now, process later * mit RabbitMQ funktioniert. –