Das arXiv e-print-Archiv enthält mehrere Terabytes an Papieren aus verschiedenen Wissenschaftsbereichen. Einige Benutzer möchten eine vollständige Kopie dieser Daten auf ihren eigenen Computern behalten, während andere nur die neuesten Dokumente in einer bestimmten Kategorie herunterladen möchten. Sie versuchen, die Bandbreitenbelastung mit einer Art von verteilten Download-System (z. B. BitTorrent) zu reduzieren. Ich suche nach Ideen für ein Programm oder eine Reihe von Programmen, die das alles abdecken würden.ArXiv Replication Brainstorming
0
A
Antwort
1
Der gesamte PDF-Inhalt ist in der Amazon Cloud.
während es> 600k Papiere auf arXiv die Gesamtgröße des pdf ist < 1/2 TB
http://arxiv.org/help/bulk_data_s3
T.
0
Meine erste Idee ist, dass dies eine Menge wie Usenet Newsgroups aussieht, mit unendlicher Persistenz für Nachrichten auf den Servern. Ich weiß nicht, wie gut es mit PDFs funktioniert.
1
arXiv recommends squid in httpd Beschleunigungsmodus für genau diesen Zweck. Irgendein bestimmter Grund, warum das nicht gut genug ist?
Verwandte Themen
- 1. Advantage Database Replication
- 2. mysql replication duplicated entry
- 3. Cassandra Data Replication Problem
- 4. RSS-Feed-Reader kompatibel mit arxiv
- 5. Lua Syntax-Markierung Latex für arXiv
- 6. Wie wiederholen Test in Espresso fehlgeschlagen? - Brainstorming
- 7. Snapshot Replication Publisher Schema Änderungen
- 8. SQL Replication Setup - fast dort
- 9. Replication Googles Suche iOS Karten-Animation
- 10. Wie funktioniert MongoDB gleichzeitig sharding und replication?
- 11. Unterstützt Postgres Replication (nativ) Replikation auf Datenbankebene?
- 12. Kann ich Marklogic Replication Alerting Java laufen
- 13. Replication Controller VS-Bereitstellung in Kubernetes
- 14. Ich bin brainstorming für ein Seriennummernschema. Mache ich es falsch?
- 15. Brainstorming: Sonderbares JPA-Problem, möglicherweise Klassenpfad- oder Jarversionsproblem?
- 16. Welche Tools verwenden Sie beim ersten Brainstorming der Projektanforderungen?
- 17. Welche Verbindungszeichenfolge für Azure SQL DB mit Active Geo Replication?
- 18. Wie bekomme ich einen Index eines Pods eines Replication Controllers?
- 19. Inserts in Merge Replication-Datenbank sind wahnsinnig langsam
- 20. Transactional Replication Log Reader-Fehler kann sp_MSAdd_ReplCmds nicht ausführen
- 21. Können Sie Log Query auf MySQL Replication Server aktivieren?
- 22. [Postgres Replication] Remote-Host ist nicht erreichbar Repmgr Salve
- 23. Halten einer lokalen MySQL DB mit einer Live-DB (MySQL Replication?)
- 24. Was sind die Geschwindigkeitsvergleiche zwischen NDB und DB (auf High Replication Datastore)?
- 25. MySQL Binary Log Replication: Kann es so eingestellt werden, dass Fehler ignoriert werden?
- 26. Tabellen ohne Verwendung von SQL Replication über Rails-Apps synchronisiert halten?
- 27. Wie kann ich einen High Replication-Datenspeicher (Google App Engine) auf einer lokalen Dev-Maschine simulieren?
- 28. SQL Server 2008 R2 Merge Replication Change Identity-Verwaltung für einen Artikel
- 29. Wie überprüft man, ob Merge Replication wirklich abgeschlossen ist oder nicht
- 30. Anmeldung fehlgeschlagen mit vorhandenem Benutzer auf PostgreSQL
Einer der Menschen, die beteiligt sind „Zunächst einmal sollte es Beachten Sie, dass aufgrund der arXiv-Roboterpolitik derzeit nichts dergleichen möglich ist. Mit anderen Worten: Über 15 Jahre Forschung sind zwar zugänglich, aber nicht wirklich zugänglich. " Der Sinn dieses neuen Projekts ist es, den gesamten arXiv herunterzuladen. – sep332