GSA-文件的最后修改日期(PDF/DOC等)

GSA-文件的最后修改日期(PDF/DOC等),pdf,doc,last-modified,google-search-appliance,Pdf,Doc,Last Modified,Google Search Appliance,根据GSA的文件: PDF or XPS documents typically have metadata such as: <MT N="CreationDate" V="D:20040107111105Z"/> <MT N="ModDate" V="D:20040209162220+01'00'"/> The search appliance can automatically pick up these formats without any special fo

根据GSA的文件:

PDF or XPS documents typically have metadata such as:
<MT N="CreationDate" V="D:20040107111105Z"/>
<MT N="ModDate" V="D:20040209162220+01'00'"/>
The search appliance can automatically pick up these formats without any special formatting configuration.
PDF或XPS文档通常包含以下元数据:
搜索设备可以自动拾取这些格式,而无需任何特殊的格式配置。
但不幸的是,这似乎不起作用。我们的网站上有PDF、文档和其他文件,最近修改的日期出现在GSA搜索结果中相应的
条目中。但是
有一个空值,这表示GSA无法提取日期。即使在GSA控制台的“文档日期”页面中指定日期格式也没有帮助


那么,如何让GSA“看到”文档的最后修改日期呢?请注意:我们无法使用web服务器上次修改的HTTP头值,因为它们在我们的情况下不正确(AEM dispatcher/caching interference)。

GSA可以从文档属性中提取元数据,但我不确定GSA是否可以使用ModDate/CreationDate来填充
,而无需“文档日期”配置

您提到“您不能使用web服务器上次修改的HTTP头值,因为在我们的示例中这些值不正确。”这是否意味着您的web服务器返回的上次修改的头值不正确

最后修改的响应头优先于GSA中的所有其他元数据。因此,如果您的服务器无法返回正确的值,那么您必须从响应中删除最后修改的头


我曾遇到许多人在指定文档日期下的格式时使用java Simpledateformat(yy-MM-dd),但GSA只能理解strTime格式。这是GSA无法填充
的主要原因之一。因此,请确保在strtime中使用日期格式,否则请留空,因为它不是必填字段。

谢谢Mohan。是的,web服务器返回的日期不正确,因为它看到的是缓存版本的日期,而不是实际文档的日期。是的,我们在apachehttpd conf中为这些文档设置了一个头unset,以抑制上次修改。我们已经尝试了文档日期配置(正如我最初的帖子也提到的),但GSA仍然无法识别日期。这可能是因为ModDate有秒、时区等,而GSA只允许在小时字段(HH)前进行表示。无论如何,这种配置不是一个可行的解决方案,因为还有其他文件格式(docetc)需要处理。