&引用;内容“;为Azure搜索索引blob内容时太大

&引用;内容“;为Azure搜索索引blob内容时太大,azure,azure-storage-blobs,azure-cognitive-search,Azure,Azure Storage Blobs,Azure Cognitive Search,我为Azure设置了blob索引和全文搜索,如本文所述: 我的某些文档在索引器中失败,导致返回以下错误: “内容”字段包含的术语太大,无法处理。UTF-8编码术语的最大长度为32766字节。此错误最可能的原因是在此字段上启用了筛选、排序和/或镶嵌面处理,这会导致将整个字段值作为单个项进行索引。请避免在大字段中使用这些选项 产生此错误的特定pdf为3.68MB,包含各种内容(文本、表格、图像等) 索引和索引器的设置与那篇文章中描述的完全相同,并添加了一些文件类型限制 索引: { "name

我为Azure设置了blob索引和全文搜索,如本文所述:

我的某些文档在索引器中失败,导致返回以下错误:

“内容”字段包含的术语太大,无法处理。UTF-8编码术语的最大长度为32766字节。此错误最可能的原因是在此字段上启用了筛选、排序和/或镶嵌面处理,这会导致将整个字段值作为单个项进行索引。请避免在大字段中使用这些选项

产生此错误的特定pdf为3.68MB,包含各种内容(文本、表格、图像等)

索引和索引器的设置与那篇文章中描述的完全相同,并添加了一些文件类型限制

索引:

{
    "name": "my-index",
    "fields": [{
        "name": "id",
        "type": "Edm.String",
        "key": true,
        "searchable": false
    }, {
        "name": "content",
        "type": "Edm.String",
        "searchable": true
    }]
}
{
    "name": "my-indexer",
    "dataSourceName": "my-data-source",
    "targetIndexName": "my-index",
    "schedule": { 
        "interval": "PT2H"
    },
    "parameters": {
        "maxFailedItems": 10,
        "configuration": {
            "indexedFileNameExtensions": ".pdf,.doc,.docx,.xls,.xlsx,.ppt,.pptx,.html,.xml,.eml,.msg,.txt,.text"
        }
    }
}
索引器:

{
    "name": "my-index",
    "fields": [{
        "name": "id",
        "type": "Edm.String",
        "key": true,
        "searchable": false
    }, {
        "name": "content",
        "type": "Edm.String",
        "searchable": true
    }]
}
{
    "name": "my-indexer",
    "dataSourceName": "my-data-source",
    "targetIndexName": "my-index",
    "schedule": { 
        "interval": "PT2H"
    },
    "parameters": {
        "maxFailedItems": 10,
        "configuration": {
            "indexedFileNameExtensions": ".pdf,.doc,.docx,.xls,.xlsx,.ppt,.pptx,.html,.xml,.eml,.msg,.txt,.text"
        }
    }
}

我试着浏览他们的文档和其他相关文章,但我找不到任何信息。我猜这是因为该功能仍在预览中。

搜索索引中单个词的大小有一个限制-它也恰好是32KB。如果搜索索引中的
content
字段标记为
filterable
facetable
sortable
,则您将达到此限制(无论该字段是否标记为searchable)。通常,对于大型可搜索内容,您希望启用
可搜索
,有时启用
可检索
,但不启用其余内容。这样,您就不会从索引端达到内容长度的限制


请参阅以了解更多上下文。

搜索索引中单个词的大小有一个限制-它也恰好是32KB。如果搜索索引中的
content
字段标记为
filterable
facetable
sortable
,则您将达到此限制(无论该字段是否标记为searchable)。通常,对于大型可搜索内容,您希望启用
可搜索
,有时启用
可检索
,但不启用其余内容。这样,您就不会从索引端达到内容长度的限制


请参阅以了解更多上下文。

很有意义。因此,默认情况下,字段被标记为
可过滤
可分面
,和/或
可排序
?是的,字符串字段默认为可排序/可过滤/可排序-有关所有详细信息,请参阅。我们可能应该更新blob索引文章中的示例索引,使所有这些属性都为false。有意义。因此,默认情况下,字段被标记为
可过滤
可分面
,和/或
可排序
?是的,字符串字段默认情况下是可排序/可过滤/可排序的-有关所有详细信息,请参阅。我们可能应该更新blob索引文章中的示例索引,使所有这些属性都为false。