Hash 特征散列_Hash_Machine Learning_Nlp

Hash 特征散列

hash machine-learning nlp

Hash 特征散列,hash,machine-learning,nlp,Hash,Machine Learning,Nlp,我知道这是一种矢量化特征的技术；这在机器学习中非常常见。我仍然不明白，当你想要追踪有碰撞时的术语频率时，它是如何工作的。让我们遵循Luis Argerich在link中给出的相同示例假设您的文本是：“快速棕色狐狸”，假设您有下一个哈希函数： h(the) mod 5 = 0 h(quick) mod 5 = 1 h(brown) mod 5 = 1 h(fox) mod 5 = 3 最后一个向量如下：（1,2,0,1,0）现在，让我们假设您的文本是：“快跑的棕色狐狸快跑” 最后一个向量是

我知道这是一种矢量化特征的技术；这在机器学习中非常常见。我仍然不明白，当你想要追踪有碰撞时的术语频率时，它是如何工作的。让我们遵循Luis Argerich在link中给出的相同示例

假设您的文本是：“快速棕色狐狸”，假设您有下一个哈希函数：

h(the) mod 5 = 0
h(quick) mod 5 = 1
h(brown) mod 5 = 1
h(fox) mod 5 = 3

最后一个向量如下：（1,2,0,1,0）

现在，让我们假设您的文本是：“快跑的棕色狐狸快跑” 最后一个向量是：（1,6,0,1,0）

我的问题是，我怎么知道brown只出现一次，quick出现了5次？我如何跟踪它

你没有。这就是散列的全部技巧。它将某些东西整合起来，丢失信息，这样你就可以获得其他好处。如果你想记录每件事，你应该只使用一袋单词，而不是散列

另一种选择是更复杂的散列方法，就像LSH技术中使用的方法一样，它使用散列函数族重建最终的相似性，通过显示给定足够大的散列函数样本，它收敛到真正的相似性

这让我很困惑。如果您正试图使用功能哈希处理频率TF-IDF，则可能是一种方法。ML站点位于SO上。