MarkLogic群集如何加载和管理数据
我想询问如何将数据加载到此集群中,我是否手动将数据分别加载到每个节点中?或者marklogic能够在集群本身之间管理和传输数据,所以我需要做的就是将数据加载到单个节点中 对于marklogic了解和平衡特定林/数据库之间的数据,是否有特定要求?例如,林和数据库需要共享相同的名称,或者XDBC服务器需要共享相同的端口号?最后,我想问,是否有办法提高数据摄取吞吐量?我试图通过一次将数据注入所有3个节点来实现这一点,但这导致了另外两个节点上的错误。所以我回到了使用单个节点来输入数据,它目前以100%的CPU使用率运行 从这里的评论中引出的问题:MarkLogic群集如何加载和管理数据,marklogic,marklogic-9,Marklogic,Marklogic 9,我想询问如何将数据加载到此集群中,我是否手动将数据分别加载到每个节点中?或者marklogic能够在集群本身之间管理和传输数据,所以我需要做的就是将数据加载到单个节点中 对于marklogic了解和平衡特定林/数据库之间的数据,是否有特定要求?例如,林和数据库需要共享相同的名称,或者XDBC服务器需要共享相同的端口号?最后,我想问,是否有办法提高数据摄取吞吐量?我试图通过一次将数据注入所有3个节点来实现这一点,但这导致了另外两个节点上的错误。所以我回到了使用单个节点来输入数据,它目前以100%的
数据库将数据存储在森林中,数据将分布在森林所在的任何地方。因此,如果在两台主机上都有一个具有林的数据库,它将自动平衡两台主机之间的数据。您可以使用默认为bucket的分配策略更改数据库确定将哪些数据放置在哪个林上的方式 对再平衡没有一定的要求。应用服务器和林被分配给特定的数据库,因此它们已经链接 因此,摄取到应用服务器的数据将写入指定的数据库。然后,该数据库将确定将数据放在哪些林中。这有时可能会导致一个群集主机上的林变得比另一个群集主机上的林更大,此时数据库将决定将部分数据重新分发给分配给同一数据库的其他林,这些数据库可能在同一主机上,也可能不在同一主机上 有许多方法可以提高摄取吞吐量,但以下是最常见的方法:
- 增加主机的受约束资源。这意味着,如果您受到CPU限制,请添加内核;如果内存有限,请添加内存;等等
- 增加涉及的主机数量。通过负载平衡或多个接收管道
MarkLogic提供许多免费课程,包括按需课程和讲师指导课程。我建议花几个小时的时间。查看其他课程的列表。您还可以查看,它很好地概述了MarkLogic的工作原理。如果您正在投票,请发表评论。该问题引用了链接问题中的详细信息。@Micheal Gardner,感谢您的回答,我想澄清提高吞吐量的第二种方法“增加所涉及的主机数量”,为此,我只需添加更多的林并将它们分配给不同的“主机”,假设forest1、forest2、forest3链接到主机1、主机2,分别是3号。从这里,我将这些林添加到单个数据库中,并运行MLCP来摄取数据。这样,它通过涉及更多主机来提高吞吐量。我希望这是让更多主持人参与进来的正确方式?对于“受限资源”,我应该更改什么类型的资源以提高吞吐量?@WhiteSolstice-是的,您将希望在主机之间分布您的林,这对后端很有帮助。我还扩展了答案,以涵盖您的其他问题。@Micheal Gardner,很抱歉再次重复此问题,但我一直在使用一些设置,通常我的一些节点/VM比另一个节点占用更多空间,尽管它们应该同样平衡。这是由于索引的创建以及它们在节点/虚拟机之间的分布方式造成的吗?另一个相当明显的提高摄取速度的方法是每个主机使用多个林。MarkLogic将能够以这种方式并行处理和写入数据,从而更多地利用主机上的CPU内核和IO带宽。这可能取决于究竟是什么持有美国银行