Apache 具有多核分布式体系结构的Solr？_Apache_Solr_Hadoop_Search Engine

Apache 具有多核分布式体系结构的Solr？

apache solr hadoop

Apache 具有多核分布式体系结构的Solr？,apache,solr,hadoop,search-engine,Apache,Solr,Hadoop,Search Engine,我计划使用Solr作为搜索服务器，并将开发自己的spider或扩展Nutch 我正试图设计一个最好的经济拓扑结构，既能满足我目前的目标，又能保持开放性，以便在未来扩大规模我计划使用AmazonAWS来托管所有机器。我的问题是了解以下想法和要求的可行性，如有帮助，将不胜感激一个Solr节点（专用于查询-作为web前端的查询服务器）按需Solr节点（1个或多个）（索引服务器Nutch或其他爬行器将连接到此节点，并充斥新内容以进行爬网和索引）我不确定像许多其他搜索服务器（例如Microsoft

我计划使用Solr作为搜索服务器，并将开发自己的spider或扩展Nutch

我正试图设计一个最好的经济拓扑结构，既能满足我目前的目标，又能保持开放性，以便在未来扩大规模

我计划使用AmazonAWS来托管所有机器。我的问题是了解以下想法和要求的可行性，如有帮助，将不胜感激

一个Solr节点（专用于查询-作为web前端的查询服务器）

按需Solr节点（1个或多个）（索引服务器Nutch或其他爬行器将连接到此节点，并充斥新内容以进行爬网和索引）

我不确定像许多其他搜索服务器（例如Microsoft FAST或SharePoint search）一样，我是否可以使用公共数据库部署分布式拓扑

我愿意使用Hadoop或任何其他分布式文件系统，如果它们能够支持这种拓扑结构的话

因此，它主要设想如下：

                  ---------------------------------------------------

                Hadoop or anyother distributed file system / db system

                  ---------------------------------------------------

                                           ||
                                           ||
                                           ||
                                           VV
                  ----------------                ------------------------

                  Solr query node                  Dedicated Solr index nodes 
                (1 powerful server)         +              (on demand)
                                                 with Nutch or other web spider

                  ----------------                ------------------------

                         ||                                   ||
                         VV                                   VV
                    Web Front End                          Internet

我是这项技术的新手，其他论坛和自由职业者网站上的许多社区成员提出了多核实现，但我的理解是多核是为了支持区分数据节点（与集群或分布式体系结构无关）！我说得对吗

请就可行性提出建议

非常感谢

Nilay.

solr中的“核心”用于描述“全文索引环境”。您可以运行1个JavaEE容器（tomcat、ant等），以便使用不同的数据库和不同的全文索引提供不同的服务。示例1核心用于产品搜索，1核心用于邮件搜索，依此类推

每个使用solr运行的JavaEE容器至少有一个核心。从拓扑结构上看，您似乎需要一个前端solr环境，可能需要一个核心，一个后端solr环境可能也需要一个核心

因此，您有2台服务器、2个JavaEE容器和2个内核。您可以将这两个核心视为“多”（多个）核心，但实际上这是两个单核心安装，它们使用（可能）类似于复制的东西。

谢谢，我会调查的。我的需要是在所有solr实例之间模拟仲裁类型的存储，并且我可以根据需要启动solar实例来处理爬网数据并更新仲裁存储的索引。更多关于集群，但具有弹性属性，因此我可以扩展到我的需求。