Machine learning 特征散列/雪崩效应

Machine learning 特征散列/雪崩效应,machine-learning,dimensionality-reduction,Machine Learning,Dimensionality Reduction,我一直在读一些关于降维的特征哈希的文章。我知道使用具有统一输出分布的散列函数(输入映射到特定值的可能性与该范围内的所有其他值相同)以及雪崩/级联效应(输入的小变化产生输出的大变化)非常重要。这些属性将确保特征之间的碰撞独立于其频率。然而,我仍然不清楚雪崩效应(特别是)是如何影响这一点的。有人能解释一下为什么/如何重要吗?什么构成产出的“大变化” 参考资料: 这个想法是,如果您有一个紧凑的输入数据集群,您仍然希望哈希函数将输出散布到整个映射中。结果是,碰撞将是一个一致的随机事件,而不是让你产生大量

我一直在读一些关于降维的特征哈希的文章。我知道使用具有统一输出分布的散列函数(输入映射到特定值的可能性与该范围内的所有其他值相同)以及雪崩/级联效应(输入的小变化产生输出的大变化)非常重要。这些属性将确保特征之间的碰撞独立于其频率。然而,我仍然不清楚雪崩效应(特别是)是如何影响这一点的。有人能解释一下为什么/如何重要吗?什么构成产出的“大变化”

参考资料:
这个想法是,如果您有一个紧凑的输入数据集群,您仍然希望哈希函数将输出散布到整个映射中。结果是,碰撞将是一个一致的随机事件,而不是让你产生大量碰撞的紧密簇,或者与另一个紧密簇的映射发生大量碰撞

“大变化”表明你的散列函数h应该表明h(a)-h(b)是随机独立于(a-b)的


够了吗?如果您需要更多解释,请跟进。

雪崩效应确保输入中的微小变化(例如:云与云)将在输出中产生巨大变化,也就是说,接近的输入值将产生遥远且不可预测的输出值