<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 全文搜索-文本拆分为多个文档_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Lucene_Full Text Search

elasticsearch 全文搜索-文本拆分为多个文档

lucene

elasticsearch 全文搜索-文本拆分为多个文档,elasticsearch,lucene,full-text-search,elasticsearch,Lucene,Full Text Search,我是弹性搜索的新手，我想知道弹性搜索是否能解决我们的需求问题：我们有很多书，我们希望将每本书存储到更小的卡盘/部分（比如500字）。我不知道如果我搜索一个短语，“男孩穿着蓝色衬衫站着”，搜索会起什么作用。尤其是当它被拆分为多个记录/文档时文件一：……那个男孩是站着的文件文件2：穿着蓝色衬衫是否有存储此类数据的最佳实践谢谢这是一个好问题，我很想听到一些建议方法。根据我目前的理解，最好的方法是这些文档之间的重叠，即每个“块”还将包含可能包含上一个和下一个区块的文本的字段如果要保持段之间的关

我是弹性搜索的新手，我想知道弹性搜索是否能解决我们的需求问题：

我们有很多书，我们希望将每本书存储到更小的卡盘/部分（比如500字）。我不知道如果我搜索一个短语，“男孩穿着蓝色衬衫站着”，搜索会起什么作用。尤其是当它被拆分为多个记录/文档时

文件一：……那个男孩是站着的文件

文件2：穿着蓝色衬衫是否有存储此类数据的最佳实践

谢谢

这是一个好问题，我很想听到一些建议方法。根据我目前的理解，最好的方法是这些文档之间的重叠，即每个“块”还将包含可能包含上一个和下一个区块的文本的字段如果要保持段之间的关系，可以尝试嵌套字段如果不需要从其段重建书籍，也可以使用父/子字段。出于好奇，你为什么需要这种方法？@MikeMichaels我们认为是重叠的，但我认为这会产生很多噪音，特别是当我们有数百万张唱片时。@Lupanoide我们需要重建这些书。每个段都会给我们一个段ID，我们会将其映射到其他处理过的数据，例如，如果处理过的数据具有相同/相似的文本，我们可以为特定的段着色。此外，段将给我们一致的页面大小和容易加载的书籍在低带宽地区。可能还有其他原因，但我可以在这个阶段考虑。@SharePointer好的，如果您还需要段的元数据，如segmentID，您可以只使用或嵌套字段或父/子字段。关于它们之间的区别，你可以从elastic团队成员那里读到这篇文章，这是一个好问题，我很想听听一些建议的方法。根据我目前的理解，最好的方法是这些文档之间的重叠，即每个“块”还将包含可能包含上一个和下一个区块的文本的字段如果要保持段之间的关系，可以尝试嵌套字段如果不需要从其段重建书籍，也可以使用父/子字段。出于好奇，你为什么需要这种方法？@MikeMichaels我们认为是重叠的，但我认为这会产生很多噪音，特别是当我们有数百万张唱片时。@Lupanoide我们需要重建这些书。每个段都会给我们一个段ID，我们会将其映射到其他处理过的数据，例如，如果处理过的数据具有相同/相似的文本，我们可以为特定的段着色。此外，段将给我们一致的页面大小和容易加载的书籍在低带宽地区。可能还有其他原因，但我可以在这个阶段考虑。@SharePointer好的，如果您还需要段的元数据，如segmentID，您可以只使用或嵌套字段或父/子字段。关于它们之间的区别，你可以从elastic团队成员那里读到这篇文章