Azure搜索中的文件格式检测

Azure搜索中的文件格式检测,azure,azure-cognitive-search,Azure,Azure Cognitive Search,Azure中有大量Blob,我们希望将它们添加到Azure搜索索引中。这些blob有各种格式的PDF、DOC、RTF等,但它们都没有文件扩展名 正因为如此,Azure Search在编制索引时会犹豫,因为它似乎只使用文件扩展名来检测文件格式。我们得到以下错误,并且由于我们所有的文件都有这些无效的扩展名,因此无论为索引错误设置了什么阈值,都会发生这种情况: 导入配置失败,创建索引器时出错:数据错误 资料来源:文件 有 不支持的内容类型“不支持”。仅为blob编制索引 元数据并忽略其内容,请设置“d

Azure中有大量Blob,我们希望将它们添加到Azure搜索索引中。这些blob有各种格式的PDF、DOC、RTF等,但它们都没有文件扩展名

正因为如此,Azure Search在编制索引时会犹豫,因为它似乎只使用文件扩展名来检测文件格式。我们得到以下错误,并且由于我们所有的文件都有这些无效的扩展名,因此无论为索引错误设置了什么阈值,都会发生这种情况:

导入配置失败,创建索引器时出错:数据错误 资料来源:文件 有 不支持的内容类型“不支持”。仅为blob编制索引 元数据并忽略其内容,请设置“dataToExtract”索引器 “storageMetadata”的配置属性。看见 . 忽略此错误并 继续索引不支持内容类型的Blob,请设置 索引器配置中的“failOnUnsupportedContentType”开关切换到 错误的有关详细信息,请参阅 . 请调整 您的数据源定义,以便继续


有没有办法让Azure Search执行基于文件内容的文件检测,或者至少在blob上使用元数据

Azure Search已经进行了基于内容的内容类型检测,但有些blob存在问题。在索引器操作期间,可以跳过这些有问题的blob并发出警告,以便您知道发生了什么,但如果在索引器创建期间遇到此类blob,则创建将失败,并出现您遇到的错误


如果您删除或跳过使用blob元数据的问题blob,那么您的大多数其他blob是否按预期工作?我怀疑Azure搜索团队会有兴趣看看这个有问题的blob,如果你能分享的话。

哦,这很有趣。它总是第一次失败。我将配置它继续出错,并查看它能够索引多少文件。非常感谢。这表明您的第一个blob可能有问题。如果您关心索引尽可能多的文档,我建议将FailOnSupportedContentType开关设置为false,将maxFailedItems设置为-1,以指示允许索引文件项失败。不幸的是,当我禁用ffailUnsupportedContentType时,Azure Search属性索引了600多个文档,但只有在元数据上这样做。对于每个文档,包括PDF、RTF、图像等,我得到的文档都有不支持的内容类型“unsupported”。Blob元数据已编制索引,但已跳过内容提取。。我将把其中的一些文件重命名为正确的文件扩展名,看看这是否解决了问题。结果证明,根本问题是,我试图索引的文档都是使用blob存储API加密的,而不是使用TDE加密的。这显然会阻止索引。有一次,我在一组未加密的文档上尝试了这个方法,不管文件扩展名是什么,效果非常好。