Java CouchDB数据复制_Java_Twitter_Couchdb

Java CouchDB数据复制

java twitter couchdb

Java CouchDB数据复制,java,twitter,couchdb,Java,Twitter,Couchdb,我有30 GB的twitter数据存储在CouchDB中。我的目标是用java处理每条推文，但java程序无法一次保存如此大的数据。为了处理整个数据集，我计划在CouchDb支持的过滤复制的帮助下，将整个数据集划分为更小的数据集。但是，由于我是couchDB的新手，所以在这样做的过程中我面临着很多问题。欢迎提出更好的建议。谢谢您总是可以在couchdb中查询一个对于java程序来说足够小的数据集，因此没有理由将子集复制到较小的数据库中。有关从couchdb获取分页结果的方法，请参阅。您甚至可以

我有30 GB的twitter数据存储在CouchDB中。我的目标是用java处理每条推文，但java程序无法一次保存如此大的数据。为了处理整个数据集，我计划在CouchDb支持的过滤复制的帮助下，将整个数据集划分为更小的数据集。但是，由于我是couchDB的新手，所以在这样做的过程中我面临着很多问题。欢迎提出更好的建议。谢谢

您总是可以在couchdb中查询一个对于java程序来说足够小的数据集，因此没有理由将子集复制到较小的数据库中。有关从couchdb获取分页结果的方法，请参阅。您甚至可以使用couchdb本身来处理map/reduce，但这取决于您的问题。

根据查询的复杂性以及处理数据集时所做的更改，您可以使用一个实例

如前一张海报所示，您可以使用分页结果，我倾向于做一些不同的事情：

我有一份关于社交爱好的文件。后者总是指一个URL，我想尝试每2-3小时更新一次
我有一个视图，它按照文档的最后一次更新请求和最后一次更新的时间对URL进行排序
我查询此视图，以便排除在30分钟内收到请求或在不到2小时前更新的文章
我在排队作业时使用rabbit MQ，如果这些作业在30分钟内未被提取，它们将过期