Search Apache solr:new schema.xml或单一预定义的xml数据格式
我正在尝试使用solr创建一个搜索引擎。为此,我首先从Wikipedia页面文章转储开始 现在,当我浏览solrs文档差不多一半的时候,却无法回答我下面的几个疑问 1-我发现我需要创建schema.xml,使用它来执行标记化和数据提取。对于一个数据源来说,这似乎很好,但我是否应该在每次添加新数据源时都编写这个schema.xml 2-如果1的答案是肯定的,即每次都需要编写单独的schema.xml,那么每当我添加新的数据源时,我都必须添加新的核心,这似乎不切实际。因此,我的问题是谷歌、必应和其他搜索引擎是如何实现这一点的 3-若1的答案是否定的,那个么可能的方式似乎是我可以将来自不同来源的信息转换成一种通用格式,然后发送给Sorl索引 请让我知道搜索引擎是如何构建的?应该期待什么样的方法Search Apache solr:new schema.xml或单一预定义的xml数据格式,search,solr,Search,Solr,我正在尝试使用solr创建一个搜索引擎。为此,我首先从Wikipedia页面文章转储开始 现在,当我浏览solrs文档差不多一半的时候,却无法回答我下面的几个疑问 1-我发现我需要创建schema.xml,使用它来执行标记化和数据提取。对于一个数据源来说,这似乎很好,但我是否应该在每次添加新数据源时都编写这个schema.xml 2-如果1的答案是肯定的,即每次都需要编写单独的schema.xml,那么每当我添加新的数据源时,我都必须添加新的核心,这似乎不切实际。因此,我的问题是谷歌、必应和其他
我一直在寻找一些关于我的问题的文章,但没有得到有关方法的相关信息。在搜索世界中,大多数数据是非结构化或半结构化的。因此,定义一个单一的通用模式将是非常困难的。我假设您一定对将索引到solr的所有不同类型的数据集有一些公平的想法。这将使您对solr模式配置中可以声明的基本/公共字段有一些了解 Solr为使用未知字段定义模式提供了极大的灵活性。动态字段在所有方面都与常规字段相同,只是它们的名称以通配符结尾。因此,它们可以在传入数据中容纳大量未知字段,而我们目前还不知道这些字段。以下内容可以索引任何以t结尾的内容 另一种方法是使用solr的模式。在这种模式下,solr将不断猜测字段类型,并将它们添加到托管模式文件中。您甚至可以使用这种方法来理解不同数据集的本质模式,然后使用这些见解为最终版本的产品创建近乎稳定的模式。这可以帮助您在数据集中找到更多的未知数
<dynamicField name="*_t" type="text_general" indexed="true" stored="true" />