Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 我想在AWS CloudSearch上搜索大文件内容,但最大文档大小是1MB——我该如何处理?_Amazon Web Services_Amazon Cloudsearch - Fatal编程技术网

Amazon web services 我想在AWS CloudSearch上搜索大文件内容,但最大文档大小是1MB——我该如何处理?

Amazon web services 我想在AWS CloudSearch上搜索大文件内容,但最大文档大小是1MB——我该如何处理?,amazon-web-services,amazon-cloudsearch,Amazon Web Services,Amazon Cloudsearch,我可以将文件内容拆分为单独的搜索文档,但是我必须在结果中手动识别,并且只向用户显示一个结果-否则,看起来有两个文件与他们的搜索相匹配,而实际上只有一个文件 此外,相关性得分也不正确。有什么想法吗?所以AWS支持部门的回应是将文件拆分成单独的文档。针对我对相关性得分和多次命中率的担忧,他们说: 对于更具挑战性的用例,您在这里提出了两个非常合理的关注点。关于相关性,你已经面临一个非常重要的问题,即很难与大量文本建立一个强烈的“信号”和差异程度。如果您拥有的文档非常类似于报告或白皮书,那么解决此问题的

我可以将文件内容拆分为单独的搜索文档,但是我必须在结果中手动识别,并且只向用户显示一个结果-否则,看起来有两个文件与他们的搜索相匹配,而实际上只有一个文件


此外,相关性得分也不正确。有什么想法吗?

所以AWS支持部门的回应是将文件拆分成单独的文档。针对我对相关性得分和多次命中率的担忧,他们说:

对于更具挑战性的用例,您在这里提出了两个非常合理的关注点。关于相关性,你已经面临一个非常重要的问题,即很难与大量文本建立一个强烈的“信号”和差异程度。如果您拥有的文档非常类似于报告或白皮书,那么解决此问题的一个潜在方法可能是将前X个字符(或第一个识别的段落)索引到“论文”字段中。可以对该字段进行加权,以便更好地指示无需手动审阅的文档主题

关于结果复制,如果您希望对其进行过滤,则需要在您的终端上进行后处理。您可以创建一个新字段,该字段可以生成一个唯一的“父”id,该id将为整个文档的每个块共享。后处理可以检查此“父”id是否已返回(第一个结果应视为最相关),如果已返回,则过滤后续结果。在这种情况下,更有用的是在结果中包含一个细化链接,该链接可以过滤特定父id中的所有匹配项