Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/345.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java CouchDB数据复制_Java_Twitter_Couchdb - Fatal编程技术网

Java CouchDB数据复制

Java CouchDB数据复制,java,twitter,couchdb,Java,Twitter,Couchdb,我有30 GB的twitter数据存储在CouchDB中。我的目标是用java处理每条推文,但java程序无法一次保存如此大的数据。为了处理整个数据集,我计划在CouchDb支持的过滤复制的帮助下,将整个数据集划分为更小的数据集。但是,由于我是couchDB的新手,所以在这样做的过程中我面临着很多问题。欢迎提出更好的建议。谢谢 您总是可以在couchdb中查询一个对于java程序来说足够小的数据集,因此没有理由将子集复制到较小的数据库中。有关从couchdb获取分页结果的方法,请参阅。您甚至可以

我有30 GB的twitter数据存储在CouchDB中。我的目标是用java处理每条推文,但java程序无法一次保存如此大的数据。为了处理整个数据集,我计划在CouchDb支持的过滤复制的帮助下,将整个数据集划分为更小的数据集。但是,由于我是couchDB的新手,所以在这样做的过程中我面临着很多问题。欢迎提出更好的建议。谢谢

您总是可以在couchdb中查询一个对于java程序来说足够小的数据集,因此没有理由将子集复制到较小的数据库中。有关从couchdb获取分页结果的方法,请参阅。您甚至可以使用couchdb本身来处理map/reduce,但这取决于您的问题。

根据查询的复杂性以及处理数据集时所做的更改,您可以使用一个实例

如前一张海报所示,您可以使用分页结果,我倾向于做一些不同的事情:

  • 我有一份关于社交爱好的文件。后者总是指一个URL,我想尝试每2-3小时更新一次
  • 我有一个视图,它按照文档的最后一次更新请求和最后一次更新的时间对URL进行排序
  • 我查询此视图,以便排除在30分钟内收到请求或在不到2小时前更新的文章
  • 我在排队作业时使用rabbit MQ,如果这些作业在30分钟内未被提取,它们将过期