将数据批量加载到Marklogic中

将数据批量加载到Marklogic中,marklogic,nosql,Marklogic,Nosql,有人能告诉我如何以最快的方式将大约30 TB的海量数据加载到Marklogic中吗。Markstudio或mclp仍然是生产环境中的一个选项。其他人如何将大数据加载到Marklogic中。MLCP原则上应该可以工作,但您可能希望缩小事务大小。不过,30 TB的容量是很多的,所以请确保您有一个MarkLogic集群,它已经为这样的大小做好了准备,并且要有一些耐心。首先使用几个小的(er)集运行一些测试。MLCP原则上应该可以工作,但您可能希望缩小事务大小。不过,30 TB的容量是很多的,所以请确保

有人能告诉我如何以最快的方式将大约30 TB的海量数据加载到Marklogic中吗。Markstudio或mclp仍然是生产环境中的一个选项。其他人如何将大数据加载到Marklogic中。

MLCP原则上应该可以工作,但您可能希望缩小事务大小。不过,30 TB的容量是很多的,所以请确保您有一个MarkLogic集群,它已经为这样的大小做好了准备,并且要有一些耐心。首先使用几个小的(er)集运行一些测试。

MLCP原则上应该可以工作,但您可能希望缩小事务大小。不过,30 TB的容量是很多的,所以请确保您有一个MarkLogic集群,它已经为这样的大小做好了准备,并且要有一些耐心。首先使用几个小的(er)集运行一些测试。

在执行大数据负载时,客户端向集群输送足够数据的能力通常是瓶颈。即使在一个多核主机上有多个线程,您仍然需要争夺资源。如果您碰巧拥有HDFS群集或其他共享存储,我们发现您可以通过将数据暂存到HDFS并运行分布式mlcp作业(直接从数据节点写入MarkLogic D节点)来获得更好的并行化。

在执行大数据负载时,客户机向集群输送足够数据的能力通常是瓶颈。即使在一个多核主机上有多个线程,您仍然需要争夺资源。如果您碰巧拥有HDFS群集或其他共享存储,我们发现您可以通过将数据暂存到HDFS并运行分布式mlcp作业(直接从数据节点写入MarkLogic D节点)来获得更好的并行化