&引用;内容“;为Azure搜索索引blob内容时太大
我为Azure设置了blob索引和全文搜索,如本文所述: 我的某些文档在索引器中失败,导致返回以下错误: “内容”字段包含的术语太大,无法处理。UTF-8编码术语的最大长度为32766字节。此错误最可能的原因是在此字段上启用了筛选、排序和/或镶嵌面处理,这会导致将整个字段值作为单个项进行索引。请避免在大字段中使用这些选项 产生此错误的特定pdf为3.68MB,包含各种内容(文本、表格、图像等) 索引和索引器的设置与那篇文章中描述的完全相同,并添加了一些文件类型限制 索引:&引用;内容“;为Azure搜索索引blob内容时太大,azure,azure-storage-blobs,azure-cognitive-search,Azure,Azure Storage Blobs,Azure Cognitive Search,我为Azure设置了blob索引和全文搜索,如本文所述: 我的某些文档在索引器中失败,导致返回以下错误: “内容”字段包含的术语太大,无法处理。UTF-8编码术语的最大长度为32766字节。此错误最可能的原因是在此字段上启用了筛选、排序和/或镶嵌面处理,这会导致将整个字段值作为单个项进行索引。请避免在大字段中使用这些选项 产生此错误的特定pdf为3.68MB,包含各种内容(文本、表格、图像等) 索引和索引器的设置与那篇文章中描述的完全相同,并添加了一些文件类型限制 索引: { "name
{
"name": "my-index",
"fields": [{
"name": "id",
"type": "Edm.String",
"key": true,
"searchable": false
}, {
"name": "content",
"type": "Edm.String",
"searchable": true
}]
}
{
"name": "my-indexer",
"dataSourceName": "my-data-source",
"targetIndexName": "my-index",
"schedule": {
"interval": "PT2H"
},
"parameters": {
"maxFailedItems": 10,
"configuration": {
"indexedFileNameExtensions": ".pdf,.doc,.docx,.xls,.xlsx,.ppt,.pptx,.html,.xml,.eml,.msg,.txt,.text"
}
}
}
索引器:
{
"name": "my-index",
"fields": [{
"name": "id",
"type": "Edm.String",
"key": true,
"searchable": false
}, {
"name": "content",
"type": "Edm.String",
"searchable": true
}]
}
{
"name": "my-indexer",
"dataSourceName": "my-data-source",
"targetIndexName": "my-index",
"schedule": {
"interval": "PT2H"
},
"parameters": {
"maxFailedItems": 10,
"configuration": {
"indexedFileNameExtensions": ".pdf,.doc,.docx,.xls,.xlsx,.ppt,.pptx,.html,.xml,.eml,.msg,.txt,.text"
}
}
}
我试着浏览他们的文档和其他相关文章,但我找不到任何信息。我猜这是因为该功能仍在预览中。搜索索引中单个词的大小有一个限制-它也恰好是32KB。如果搜索索引中的
content
字段标记为filterable
、facetable
或sortable
,则您将达到此限制(无论该字段是否标记为searchable)。通常,对于大型可搜索内容,您希望启用可搜索
,有时启用可检索
,但不启用其余内容。这样,您就不会从索引端达到内容长度的限制
请参阅以了解更多上下文。搜索索引中单个词的大小有一个限制-它也恰好是32KB。如果搜索索引中的
content
字段标记为filterable
、facetable
或sortable
,则您将达到此限制(无论该字段是否标记为searchable)。通常,对于大型可搜索内容,您希望启用可搜索
,有时启用可检索
,但不启用其余内容。这样,您就不会从索引端达到内容长度的限制
请参阅以了解更多上下文。很有意义。因此,默认情况下,字段被标记为
可过滤
,可分面
,和/或可排序
?是的,字符串字段默认为可排序/可过滤/可排序-有关所有详细信息,请参阅。我们可能应该更新blob索引文章中的示例索引,使所有这些属性都为false。有意义。因此,默认情况下,字段被标记为可过滤
,可分面
,和/或可排序
?是的,字符串字段默认情况下是可排序/可过滤/可排序的-有关所有详细信息,请参阅。我们可能应该更新blob索引文章中的示例索引,使所有这些属性都为false。