Nlp 什么是自然语言处理中的区域哈希？

nlp

Nlp 什么是自然语言处理中的区域哈希？,nlp,information-retrieval,Nlp,Information Retrieval,NLP领域有人听说过术语区域散列吗？据我所知，区域哈希是迭代文档并提取句子的过程。然后对累积的句子进行散列，然后对接下来的n个句子继续此过程我在谷歌上找不到这方面的任何参考资料，所以我想知道它是否有不同的名字。它应该与测量文本相似性/接近度相关也许它指的是对位置敏感的哈希据我所知，“区域散列”作为一门学科在NLP中不是一个成熟的概念。这只是一些算法中使用的一个简单概念（与NLP相关）。我所知道的唯一一个使用它的是一个Sphinx搜索服务器，这里的“区域散列”只是“称为区域的对象散列”，其中

NLP领域有人听说过术语区域散列吗？据我所知，区域哈希是迭代文档并提取句子的过程。然后对累积的句子进行散列，然后对接下来的n个句子继续此过程

我在谷歌上找不到这方面的任何参考资料，所以我想知道它是否有不同的名字。它应该与测量文本相似性/接近度相关

也许它指的是对位置敏感的哈希

据我所知，“区域散列”作为一门学科在NLP中不是一个成熟的概念。这只是一些算法中使用的一个简单概念（与NLP相关）。我所知道的唯一一个使用它的是一个

Sphinx

搜索服务器，这里的“区域散列”只是“称为区域的对象散列”，其中“区域”描述如下：

区域可以正式定义如下。在一个开始标记和匹配的结束标记称为跨度，聚合在所有共享相同标记名的对应跨距中，称为区域。例如，在中出现

和

之间的所有内容文档字段属于H1区域
由index_zones指令启用的区域索引是可选的 HTML剥离器的扩展。因此，它还要求已启用剥离器（html_strip=1）。价值索引区域应该是以逗号分隔的标记名和应作为区域索引的通配符（以星形结尾）
分区可以任意嵌套和重叠。唯一的要求是每个开始标记都有一个匹配的标记。你也可以有一个任意的两个分区（如在唯一分区名称中，如H1）和跨距的数量（所有出现的H1标记）在文档中。一旦索引，然后，可以使用分区与“分区”操作符进行匹配，请参见第5.3节，“扩展查询语法”
这些结构的散列在传统意义上被用来加速搜索和查找。我不知道任何“更深”的含义
也许它指的是对位置敏感的哈希

局部敏感散列是多维数据的一种概率方法，我看不出与区域散列有任何更深层次的联系，因为两者都使用散列函数。
它似乎与信息检索比实际的NLPThank you，lejlot更相关。我的最终目标是看看如何在NLP中使用它来衡量文本之间的相似性，并找到其他也可以使用的技术。你知道你头脑中还有其他技术吗？有数百种这样的方法，搜索“字符串相似性度量”、“概念相似性度量”或“文档相似性度量”。它们的范围从单一指标（如Hamming/Jaccard）到基于文本（字符串内核）和/或意义（wordnet内核）的文本内核（也值得搜索）