Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/321.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 用于128位密钥的非常快速的通用哈希函数_Java_C_Hash_Micro Optimization - Fatal编程技术网

Java 用于128位密钥的非常快速的通用哈希函数

Java 用于128位密钥的非常快速的通用哈希函数,java,c,hash,micro-optimization,Java,C,Hash,Micro Optimization,我需要一个128位密钥的快速通用哈希函数。返回值需要大约32位(好的,16位就足够了;在大多数情况下,我实际上只需要1-4位) 通用散列意味着,有两个参数:键(128位)和索引(64位)。对于两个键,如果使用不同的索引调用,则通用哈希函数最终需要返回不同的结果。因此,对于不同的索引,通用哈希函数的行为应该类似于不同的哈希函数。对于x=universalHash(k,i)和y=universalHash(k,i+1),最好是平均50%的所有位在x和y之间不同(随机)。如果使用不同的键调用该方法,则

我需要一个128位密钥的快速通用哈希函数。返回值需要大约32位(好的,16位就足够了;在大多数情况下,我实际上只需要1-4位)

通用散列意味着,有两个参数:键(128位)和索引(64位)。对于两个键,如果使用不同的索引调用,则通用哈希函数最终需要返回不同的结果。因此,对于不同的索引,通用哈希函数的行为应该类似于不同的哈希函数。对于
x=universalHash(k,i)
y=universalHash(k,i+1)
,最好是平均50%的所有位在x和y之间不同(随机)。如果使用不同的键调用该方法,则情况也是如此。实际上,5%的折扣对我来说是可以的

它需要非常快(最多一到两次乘法)。它被称为数百万次。请不要说:不,你不需要它太快。它最终还需要返回不同的值

到目前为止我拥有的(Java代码,但C是(由于缺少128位的数据类型,密钥是a和b的组合,它们分别是64位):

(对于某些值,第二种方法实际上已被破坏。)

我希望有一个比上面更快的散列函数,并保证在所有情况下都能工作(如果可能的话,可以证明是正确的,甚至认为这不是一个严格的要求;但是它不需要加密安全)

对于相同的键,我将使用递增索引调用universalHash方法(首先是索引0,然后是索引1,等等)。如果下一个结果可以比上一个结果计算得更快(例如,不需要乘法),这将是最好的。但是如果索引是某个值,我还需要快速“直接访问”(如示例代码中所示)

背景


我试图解决的问题是为相对较小的密钥集(通过直接映射最多16个密钥,通过拆分为较小的子集最多1024个密钥)找到MPHF(最小完美哈希函数)。有关该算法的详细信息,请参阅my,特别是。以支持大小为10^12的密钥集(类似),我尝试在内部使用128位签名,这将简化算法。

您需要一个哈希函数,该函数为128位输入输出32位

一个简单的方法是从原来的128位返回“一些”32位。选择32位的方法有很多种,每个选择都会有冲突。但是索引可以决定选择哪32位

128/32=4,因此4个索引足以找到至少一个不同的位

  • 对于键0,选择最低位的32位
  • 对于键1,选择下一个32位
  • 等等
C的实现将是

uint32_t universal_hash(uint64_t key_higher, uint64_t key_lower, int index) {
    // For a lack of portable 128 bit datatype we take the key in parts.
    return 0xFFFFFFFF & ( index >=2 ? key_higher >> ((index - 2)*32) : key_lower >> (index*32));
}

问题是什么?你真的需要在需求上做更多的扩展。你的“通用哈希”定义与数学定义大不相同。在这里了解索引的宽度也很重要。一个重要的方面是,哈希函数是否必须是加密安全的,或者它是否只需要平均分布。要提到
Long.hashCode
Long.reverseebytes
,用于摆弄。问题是这种方法没有足够的随机性(请参阅)@ThomasMueller是的,确实如此。但现在它取决于您的应用程序。如果您只想让哈希创建哈希映射,则不需要随机性。但我将让您来判断您的应用程序。
uint32_t universal_hash(uint64_t key_higher, uint64_t key_lower, int index) {
    // For a lack of portable 128 bit datatype we take the key in parts.
    return 0xFFFFFFFF & ( index >=2 ? key_higher >> ((index - 2)*32) : key_lower >> (index*32));
}