Apache 具有多核分布式体系结构的Solr?

Apache 具有多核分布式体系结构的Solr?,apache,solr,hadoop,search-engine,Apache,Solr,Hadoop,Search Engine,我计划使用Solr作为搜索服务器,并将开发自己的spider或扩展Nutch 我正试图设计一个最好的经济拓扑结构,既能满足我目前的目标,又能保持开放性,以便在未来扩大规模 我计划使用AmazonAWS来托管所有机器。我的问题是了解以下想法和要求的可行性,如有帮助,将不胜感激 一个Solr节点(专用于查询-作为web前端的查询服务器) 按需Solr节点(1个或多个)(索引服务器Nutch或其他爬行器将连接到此节点,并充斥新内容以进行爬网和索引) 我不确定像许多其他搜索服务器(例如Microsoft

我计划使用Solr作为搜索服务器,并将开发自己的spider或扩展Nutch

我正试图设计一个最好的经济拓扑结构,既能满足我目前的目标,又能保持开放性,以便在未来扩大规模

我计划使用AmazonAWS来托管所有机器。我的问题是了解以下想法和要求的可行性,如有帮助,将不胜感激

  • 一个Solr节点(专用于查询-作为web前端的查询服务器)
  • 按需Solr节点(1个或多个)(索引服务器Nutch或其他爬行器将连接到此节点,并充斥新内容以进行爬网和索引)
  • 我不确定像许多其他搜索服务器(例如Microsoft FAST或SharePoint search)一样,我是否可以使用公共数据库部署分布式拓扑

    我愿意使用Hadoop或任何其他分布式文件系统,如果它们能够支持这种拓扑结构的话

    因此,它主要设想如下:

                      ---------------------------------------------------
    
                    Hadoop or anyother distributed file system / db system
    
                      ---------------------------------------------------
    
                                               ||
                                               ||
                                               ||
                                               VV
                      ----------------                ------------------------
    
                      Solr query node                  Dedicated Solr index nodes 
                    (1 powerful server)         +              (on demand)
                                                     with Nutch or other web spider
    
                      ----------------                ------------------------
    
                             ||                                   ||
                             VV                                   VV
                        Web Front End                          Internet       
    
    我是这项技术的新手,其他论坛和自由职业者网站上的许多社区成员提出了多核实现,但我的理解是多核是为了支持区分数据节点(与集群或分布式体系结构无关)!我说得对吗

    请就可行性提出建议

    非常感谢

    Nilay.

    solr中的“核心”用于描述“全文索引环境”。 您可以运行1个JavaEE容器(tomcat、ant等),以便使用不同的数据库和不同的全文索引提供不同的服务。 示例1核心用于产品搜索,1核心用于邮件搜索,依此类推

    每个使用solr运行的JavaEE容器至少有一个核心。 从拓扑结构上看,您似乎需要一个前端solr环境,可能需要一个核心,一个后端solr环境可能也需要一个核心

    因此,您有2台服务器、2个JavaEE容器和2个内核。 您可以将这两个核心视为“多”(多个)核心,但实际上这是两个单核心安装,它们使用(可能)类似于复制的东西。

    谢谢,我会调查的。我的需要是在所有solr实例之间模拟仲裁类型的存储,并且我可以根据需要启动solar实例来处理爬网数据并更新仲裁存储的索引。更多关于集群,但具有弹性属性,因此我可以扩展到我的需求。