Amazon web services 我想在AWS CloudSearch上搜索大文件内容，但最大文档大小是1MB——我该如何处理？_Amazon Web Services_Amazon Cloudsearch

Amazon web services 我想在AWS CloudSearch上搜索大文件内容，但最大文档大小是1MB——我该如何处理？

amazon-web-services

Amazon web services 我想在AWS CloudSearch上搜索大文件内容，但最大文档大小是1MB——我该如何处理？,amazon-web-services,amazon-cloudsearch,Amazon Web Services,Amazon Cloudsearch,我可以将文件内容拆分为单独的搜索文档，但是我必须在结果中手动识别，并且只向用户显示一个结果-否则，看起来有两个文件与他们的搜索相匹配，而实际上只有一个文件此外，相关性得分也不正确。有什么想法吗？所以AWS支持部门的回应是将文件拆分成单独的文档。针对我对相关性得分和多次命中率的担忧，他们说：对于更具挑战性的用例，您在这里提出了两个非常合理的关注点。关于相关性，你已经面临一个非常重要的问题，即很难与大量文本建立一个强烈的“信号”和差异程度。如果您拥有的文档非常类似于报告或白皮书，那么解决此问题的

我可以将文件内容拆分为单独的搜索文档，但是我必须在结果中手动识别，并且只向用户显示一个结果-否则，看起来有两个文件与他们的搜索相匹配，而实际上只有一个文件

此外，相关性得分也不正确。有什么想法吗？

所以AWS支持部门的回应是将文件拆分成单独的文档。针对我对相关性得分和多次命中率的担忧，他们说：

对于更具挑战性的用例，您在这里提出了两个非常合理的关注点。关于相关性，你已经面临一个非常重要的问题，即很难与大量文本建立一个强烈的“信号”和差异程度。如果您拥有的文档非常类似于报告或白皮书，那么解决此问题的一个潜在方法可能是将前X个字符（或第一个识别的段落）索引到“论文”字段中。可以对该字段进行加权，以便更好地指示无需手动审阅的文档主题

关于结果复制，如果您希望对其进行过滤，则需要在您的终端上进行后处理。您可以创建一个新字段，该字段可以生成一个唯一的“父”id，该id将为整个文档的每个块共享。后处理可以检查此“父”id是否已返回（第一个结果应视为最相关），如果已返回，则过滤后续结果。在这种情况下，更有用的是在结果中包含一个细化链接，该链接可以过滤特定父id中的所有匹配项