Nlp 什么是自然语言处理中的区域哈希?

Nlp 什么是自然语言处理中的区域哈希?,nlp,information-retrieval,Nlp,Information Retrieval,NLP领域有人听说过术语区域散列吗?据我所知,区域哈希是迭代文档并提取句子的过程。然后对累积的句子进行散列,然后对接下来的n个句子继续此过程 我在谷歌上找不到这方面的任何参考资料,所以我想知道它是否有不同的名字。它应该与测量文本相似性/接近度相关 也许它指的是对位置敏感的哈希 据我所知,“区域散列”作为一门学科在NLP中不是一个成熟的概念。这只是一些算法中使用的一个简单概念(与NLP相关)。我所知道的唯一一个使用它的是一个Sphinx搜索服务器,这里的“区域散列”只是“称为区域的对象散列”,其中

NLP领域有人听说过术语区域散列吗?据我所知,区域哈希是迭代文档并提取句子的过程。然后对累积的句子进行散列,然后对接下来的n个句子继续此过程

我在谷歌上找不到这方面的任何参考资料,所以我想知道它是否有不同的名字。它应该与测量文本相似性/接近度相关

也许它指的是对位置敏感的哈希

据我所知,“区域散列”作为一门学科在NLP中不是一个成熟的概念。这只是一些算法中使用的一个简单概念(与NLP相关)。我所知道的唯一一个使用它的是一个
Sphinx
搜索服务器,这里的“区域散列”只是“称为区域的对象散列”,其中“区域”描述如下:

区域可以正式定义如下。在一个 开始标记和匹配的结束标记称为跨度,聚合 在所有共享相同标记名的对应跨距中,称为区域。 例如,在中出现

之间的所有内容 文档字段属于H1区域

由index_zones指令启用的区域索引是可选的 HTML剥离器的扩展。因此,它还要求 已启用剥离器(html_strip=1)。价值 索引区域应该是以逗号分隔的标记名和 应作为区域索引的通配符(以星形结尾)

分区可以任意嵌套和重叠。唯一的要求是 每个开始标记都有一个匹配的标记。你也可以有一个任意的 两个分区(如在唯一分区名称中,如H1)和跨距的数量 (所有出现的H1标记)在文档中。一旦索引, 然后,可以使用分区与“分区”操作符进行匹配,请参见 第5.3节,“扩展查询语法”

这些结构的散列在传统意义上被用来加速搜索和查找。我不知道任何“更深”的含义

也许它指的是对位置敏感的哈希


局部敏感散列是多维数据的一种概率方法,我看不出与区域散列有任何更深层次的联系,因为两者都使用散列函数。

它似乎与信息检索比实际的NLPThank you,lejlot更相关。我的最终目标是看看如何在NLP中使用它来衡量文本之间的相似性,并找到其他也可以使用的技术。你知道你头脑中还有其他技术吗?有数百种这样的方法,搜索“字符串相似性度量”、“概念相似性度量”或“文档相似性度量”。它们的范围从单一指标(如Hamming/Jaccard)到基于文本(字符串内核)和/或意义(wordnet内核)的文本内核(也值得搜索)