Hash 截断md5的均匀分布?

Hash 截断md5的均匀分布?,hash,md5,distribution,Hash,Md5,Distribution,我们可以说截断的md5散列仍然是均匀分布的吗 为了避免误解:我知道当你开始从md5结果中删除部分时,发生冲突的可能性要大得多;我的用例实际上对故意碰撞感兴趣。我也知道有一些可能更适合于较短散列(事实上包括我自己的散列)的用例,我肯定正在研究这些 但我也很想知道md5的统一分布是否也适用于它的块。(这是一种强烈的好奇心。) 由于mediawiki使用它(特别是最左边的两个十六进制数字作为结果的字符)为图像生成文件路径(例如,/4/42/此处的图像名.png),而且他们可能也对至少接近均匀的分布感兴

我们可以说截断的
md5
散列仍然是均匀分布的吗

为了避免误解:我知道当你开始从
md5
结果中删除部分时,发生冲突的可能性要大得多;我的用例实际上对故意碰撞感兴趣。我也知道有一些可能更适合于较短散列(事实上包括我自己的散列)的用例,我肯定正在研究这些

但我也很想知道
md5
的统一分布是否也适用于它的块。(这是一种强烈的好奇心。)


由于mediawiki使用它(特别是最左边的两个十六进制数字作为结果的字符)为图像生成文件路径(例如,
/4/42/此处的图像名.png
),而且他们可能也对至少接近均匀的分布感兴趣,我想答案是“是”,但我实际上不知道。

是,不显示任何偏差是加密哈希的设计要求。MD5从加密的角度来看是不可靠的,但是结果的分布从来没有受到质疑


如果您仍然需要确信,散列一堆文件、截断输出并使用ent()分析结果并不是一件大事。

我编写了一个小php程序来回答这个问题。这不是很科学,但它使用自然数作为hashtext显示了hashvalue的前8位和后8位的分布。在大约40.000.000次散列之后,最高计数和最低计数之间的差值下降到1%,因此我认为分布是正常的。我希望代码在解释计算内容时更加精确:-) 顺便说一句,通过一个类似的程序,我发现最后8位的分布似乎比第一位稍好

<?php
// Setup count-array:
for ($y=0; $y<16; $y++) {
  for ($x=0; $x<16; $x++) {
    $count[dechex($x).dechex($y)] = 0;
  }
}

$text = 1; // The text we will hash.
$hashCount = 0;
$steps = 10000;

while (1) {
  // Calculate & count a bunch of hashes:
  for ($i=0; $i<$steps; $i++) {   
    $hash = md5($text);
    $count[substr($hash, 0, 2)]++;
    $count[substr($hash, -2)]++;
    $text++;
  }
  $hashCount += $steps;

  // Output result so far:
  system("clear");
  $min = PHP_INT_MAX; $max = 0;
  for ($y=0; $y<16; $y++) {
    for ($x=0; $x<16; $x++) {  
      $n = $count[dechex($x).dechex($y)];
      if ($n < $min) $min = $n;
      if ($n > $max) $max = $n;
      print $n."\t";
    }
    print "\n";
  }
  print "Hashes: $hashCount, Min: $min, Max: $max, Delta: ".((($max-$min)*100)/$max)."%\n";
} 
?>


非常感谢-这正是我想要的答案。这太棒了。非常感谢。(我想我真的可以/应该自己做这件事!)在这里,任何人都可以很好地证明非截断md5和的一致性?@NOTT101:因为这个问题很老(通过互联网衡量)并且有一个公认的答案,不太可能从能够回答你的问题的人那里获得更多的曝光机会——也许可以提出你自己的问题?:)很好的跟进:@Benjamin真棒,谢谢你的链接!