Hash 特征散列

Hash 特征散列,hash,machine-learning,nlp,Hash,Machine Learning,Nlp,我知道这是一种矢量化特征的技术;这在机器学习中非常常见。 我仍然不明白,当你想要追踪有碰撞时的术语频率时,它是如何工作的。让我们遵循Luis Argerich在link中给出的相同示例 假设您的文本是:“快速棕色狐狸”,假设您有下一个哈希函数: h(the) mod 5 = 0 h(quick) mod 5 = 1 h(brown) mod 5 = 1 h(fox) mod 5 = 3 最后一个向量如下:(1,2,0,1,0) 现在,让我们假设您的文本是:“快跑的棕色狐狸快跑” 最后一个向量是

我知道这是一种矢量化特征的技术;这在机器学习中非常常见。 我仍然不明白,当你想要追踪有碰撞时的术语频率时,它是如何工作的。让我们遵循Luis Argerich在link中给出的相同示例

假设您的文本是:“快速棕色狐狸”,假设您有下一个哈希函数:

h(the) mod 5 = 0
h(quick) mod 5 = 1
h(brown) mod 5 = 1
h(fox) mod 5 = 3
最后一个向量如下:(1,2,0,1,0)

现在,让我们假设您的文本是:“快跑的棕色狐狸快跑” 最后一个向量是:(1,6,0,1,0)

我的问题是,我怎么知道brown只出现一次,quick出现了5次?我如何跟踪它

我的问题是,我怎么知道brown只出现一次,quick出现了5次?我如何跟踪它

你没有。这就是散列的全部技巧。它将某些东西整合起来,丢失信息,这样你就可以获得其他好处。如果你想记录每件事,你应该只使用一袋单词,而不是散列


另一种选择是更复杂的散列方法,就像LSH技术中使用的方法一样,它使用散列函数族重建最终的相似性,通过显示给定足够大的散列函数样本,它收敛到真正的相似性

这让我很困惑。如果您正试图使用功能哈希处理频率TF-IDF,则可能是一种方法。ML站点位于SO上。