Pdf ArXiv复制头脑风暴

Pdf ArXiv复制头脑风暴,pdf,dataset,sync,Pdf,Dataset,Sync,arXiv电子印刷档案馆拥有来自不同科学领域的数TB的论文。一些用户希望在自己的计算机上保存这些数据的完整副本,而另一些用户只想下载某一特定类别的最新论文。他们希望使用某种分布式下载系统(如BitTorrent)来减少带宽负载。我正在寻找一个或一组能够涵盖所有这些内容的程序的想法。我的第一个想法是,这看起来非常像Usenet新闻组,服务器上的消息具有无限持久性。不过,我不知道它与PDF配合得有多好。在httpd加速器模式下正是为了这个目的。这还不够好,有什么特别的原因吗?完整的pdf内容在亚马逊

arXiv电子印刷档案馆拥有来自不同科学领域的数TB的论文。一些用户希望在自己的计算机上保存这些数据的完整副本,而另一些用户只想下载某一特定类别的最新论文。他们希望使用某种分布式下载系统(如BitTorrent)来减少带宽负载。我正在寻找一个或一组能够涵盖所有这些内容的程序的想法。

我的第一个想法是,这看起来非常像Usenet新闻组,服务器上的消息具有无限持久性。不过,我不知道它与PDF配合得有多好。

在httpd加速器模式下正是为了这个目的。这还不够好,有什么特别的原因吗?

完整的pdf内容在亚马逊云中

虽然arXiv上有超过60万篇论文,但pdf的总大小小于1/2 TB


T.

一位参与人员说:“首先,应该注意的是,由于arXiv的机器人政策,目前不可能有这样的情况。换句话说,15年的研究虽然可以一点一点地访问,但实际上是不可访问的。”这个新项目的重点是允许下载整个arXiv。