Machine learning 特征散列/雪崩效应_Machine Learning_Dimensionality Reduction

Machine learning 特征散列/雪崩效应

machine-learning

Machine learning 特征散列/雪崩效应,machine-learning,dimensionality-reduction,Machine Learning,Dimensionality Reduction,我一直在读一些关于降维的特征哈希的文章。我知道使用具有统一输出分布的散列函数（输入映射到特定值的可能性与该范围内的所有其他值相同）以及雪崩/级联效应（输入的小变化产生输出的大变化）非常重要。这些属性将确保特征之间的碰撞独立于其频率。然而，我仍然不清楚雪崩效应（特别是）是如何影响这一点的。有人能解释一下为什么/如何重要吗？什么构成产出的“大变化” 参考资料：这个想法是，如果您有一个紧凑的输入数据集群，您仍然希望哈希函数将输出散布到整个映射中。结果是，碰撞将是一个一致的随机事件，而不是让你产生大量

我一直在读一些关于降维的特征哈希的文章。我知道使用具有统一输出分布的散列函数（输入映射到特定值的可能性与该范围内的所有其他值相同）以及雪崩/级联效应（输入的小变化产生输出的大变化）非常重要。这些属性将确保特征之间的碰撞独立于其频率。然而，我仍然不清楚雪崩效应（特别是）是如何影响这一点的。有人能解释一下为什么/如何重要吗？什么构成产出的“大变化”

参考资料：

这个想法是，如果您有一个紧凑的输入数据集群，您仍然希望哈希函数将输出散布到整个映射中。结果是，碰撞将是一个一致的随机事件，而不是让你产生大量碰撞的紧密簇，或者与另一个紧密簇的映射发生大量碰撞

“大变化”表明你的散列函数h应该表明h（a）-h（b）是随机独立于（a-b）的

够了吗？如果您需要更多解释，请跟进。

雪崩效应确保输入中的微小变化（例如：云与云）将在输出中产生巨大变化，也就是说，接近的输入值将产生遥远且不可预测的输出值