elasticsearch 处理空字段,elasticsearch,web-crawler,stormcrawler,elasticsearch,Web Crawler,Stormcrawler" /> elasticsearch 处理空字段,elasticsearch,web-crawler,stormcrawler,elasticsearch,Web Crawler,Stormcrawler" />

elasticsearch 处理空字段

elasticsearch 处理空字段,elasticsearch,web-crawler,stormcrawler,elasticsearch,Web Crawler,Stormcrawler,一般来说,我对stormcrawler和elasticsearch都是新手。我目前正在使用stormcrawler 2.0将网站数据(包括非HTML项目,如PDF和Word文档)索引到elasticsearch中。在某些情况下,PDF或Word文档的元数据不包含标题,因此该字段在elasticsearch中存储为空/空。不幸的是,这在我用来显示搜索结果的webapp(搜索ui)中造成了问题。如果元数据中不存在标题字段,是否有办法让stormcrawler在标题字段中插入默认值“Untitled”

一般来说,我对stormcrawler和elasticsearch都是新手。我目前正在使用stormcrawler 2.0将网站数据(包括非HTML项目,如PDF和Word文档)索引到elasticsearch中。在某些情况下,PDF或Word文档的元数据不包含标题,因此该字段在elasticsearch中存储为空/空。不幸的是,这在我用来显示搜索结果的webapp(搜索ui)中造成了问题。如果元数据中不存在标题字段,是否有办法让stormcrawler在标题字段中插入默认值“Untitled”

我知道elasticsearch有一个null_值字段参数,但如果我理解正确,该参数不能用于文本字段,只能帮助搜索


谢谢

一个选项是编写自定义ParseFilter,为任何缺少的键或具有空值的键提供任意值。StormCrawler代码有很多示例,请参见


同样,可以在解析器和索引器之间放置一个自定义螺栓;抓取元数据并将其标准化为您的核心内容。

一个选项是编写自定义的ParseFilter,为任何缺少的键或具有空值的键提供任意值。StormCrawler代码有很多示例,请参见


同样,可以在解析器和索引器之间放置一个自定义螺栓;抓取元数据并将其标准化为您内心的内容。

非常确定
null\u值
可以用于文本字段。根据最新文档,
null\u值
的唯一限制是它必须与字段的数据类型相同。非常确定
null\u值
可以用于文本字段。根据最新文档,
null\u值
的唯一限制是它必须与字段的数据类型相同。朱利安,谢谢你在这个问题上的指导,感谢你在stormcrawler上的辛勤工作。你的教程视频对我帮助很大,我希望将来能看到更多。欢迎你。如果你想在下一个视频中有任何特别的内容,请与我们联系。朱利安,感谢你在这个问题上的指导,以及你在stormcrawler上的辛勤工作。你的教程视频对我帮助很大,我希望将来能看到更多。欢迎你。如果你想在下一个视频中介绍任何特别的内容,请联系我们。