ArXiv Replication Brainstorming

Das arXiv e-print-Archiv enthält mehrere Terabytes an Papieren aus verschiedenen Wissenschaftsbereichen. Einige Benutzer möchten eine vollständige Kopie dieser Daten auf ihren eigenen Computern behalten, während andere nur die neuesten Dokumente in einer bestimmten Kategorie herunterladen möchten. Sie versuchen, die Bandbreitenbelastung mit einer Art von verteilten Download-System (z. B. BitTorrent) zu reduzieren. Ich suche nach Ideen für ein Programm oder eine Reihe von Programmen, die das alles abdecken würden.ArXiv Replication Brainstorming

Quelle

2009-07-30 sep332

Der gesamte PDF-Inhalt ist in der Amazon Cloud.

während es> 600k Papiere auf arXiv die Gesamtgröße des pdf ist < 1/2 TB

http://arxiv.org/help/bulk_data_s3

Quelle

2010-08-22 22:49:16 thor

Meine erste Idee ist, dass dies eine Menge wie Usenet Newsgroups aussieht, mit unendlicher Persistenz für Nachrichten auf den Servern. Ich weiß nicht, wie gut es mit PDFs funktioniert.

Quelle

2009-07-30 12:34:17 sep332

arXiv recommends squid in httpd Beschleunigungsmodus für genau diesen Zweck. Irgendein bestimmter Grund, warum das nicht gut genug ist?

Quelle

2009-07-30 13:52:28 janneb

Einer der Menschen, die beteiligt sind „Zunächst einmal sollte es Beachten Sie, dass aufgrund der arXiv-Roboterpolitik derzeit nichts dergleichen möglich ist. Mit anderen Worten: Über 15 Jahre Forschung sind zwar zugänglich, aber nicht wirklich zugänglich. " Der Sinn dieses neuen Projekts ist es, den gesamten arXiv herunterzuladen. – sep332

ArXiv Replication Brainstorming

Antwort

Verwandte Themen