Node.js 使用Apache 3.java x86 32位方法具有负值
我必须使用x86 32位哈希来确定我在卡夫卡中发送消息的分区。另一个应用程序使用NodeJS.v3()方法从预期分区获取消息 我尝试了两种方法:Node.js 使用Apache 3.java x86 32位方法具有负值,node.js,apache,murmurhash,Node.js,Apache,Murmurhash,我必须使用x86 32位哈希来确定我在卡夫卡中发送消息的分区。另一个应用程序使用NodeJS.v3()方法从预期分区获取消息 我尝试了两种方法: 首先,我从 我还尝试在Java中翻译NodeJS murrushash.v3()的JS代码(N到下表中的一列) 下面是我用来从Apache java方法获取值的代码: int ret = MurmurHash3.MurmurHashV3(key, new Long(KAFKA_PARTITION_SEED).intValue()); 注意:目前,KA
int ret = MurmurHash3.MurmurHashV3(key, new Long(KAFKA_PARTITION_SEED).intValue());
注意:目前,KAFKA_PARTITION_SEED=100,但它只是一个测试值。这将是一个长期的价值在未来
以下是我完成的代码,将NodeJS转换为Java:
static int MurmurHashV3(String key, int seed) {
int remainder;
int bytes;
int h1;
int h1b;
int c1;
int c2;
int k1;
int i;
remainder = key.length() & 3; // key.length % 4
bytes = key.length() - remainder;
h1 = seed;
c1 = 0xcc9e2d51;
c2 = 0x1b873593;
i = 0;
while (i < bytes) {
k1 = ((key.charAt(i) & 0xff)) | ((key.charAt(++i) & 0xff) << 8)
| ((key.charAt(++i) & 0xff) << 16)
| ((key.charAt(++i) & 0xff) << 24);
++i;
k1 = ((((k1 & 0xffff) * c1) + ((((k1 >>> 16) * c1) & 0xffff) << 16))) & 0xffffffff;
k1 = (k1 << 15) | (k1 >>> 17);
k1 = ((((k1 & 0xffff) * c2) + ((((k1 >>> 16) * c2) & 0xffff) << 16))) & 0xffffffff;
h1 ^= k1;
h1 = (h1 << 13) | (h1 >>> 19);
h1b = ((((h1 & 0xffff) * 5) + ((((h1 >>> 16) * 5) & 0xffff) << 16))) & 0xffffffff;
h1 = (((h1b & 0xffff) + 0x6b64) + ((((h1b >>> 16) + 0xe654) & 0xffff) << 16));
}
k1 = 0;
switch (remainder) {
case 3:
k1 ^= (key.charAt(i + 2) & 0xff) << 16;
case 2:
k1 ^= (key.charAt(i + 1) & 0xff) << 8;
case 1:
k1 ^= (key.charAt(i) & 0xff);
k1 = (((k1 & 0xffff) * c1) + ((((k1 >>> 16) * c1) & 0xffff) << 16)) & 0xffffffff;
k1 = (k1 << 15) | (k1 >>> 17);
k1 = (((k1 & 0xffff) * c2) + ((((k1 >>> 16) * c2) & 0xffff) << 16)) & 0xffffffff;
h1 ^= k1;
}
h1 ^= key.length();
h1 ^= h1 >>> 16;
h1 = (((h1 & 0xffff) * 0x85ebca6b) + ((((h1 >>> 16) * 0x85ebca6b) & 0xffff) << 16)) & 0xffffffff;
h1 ^= h1 >>> 13;
h1 = ((((h1 & 0xffff) * 0xc2b2ae35) + ((((h1 >>> 16) * 0xc2b2ae35) & 0xffff) << 16))) & 0xffffffff;
h1 ^= h1 >>> 16;
return h1 >>> 0;
}
static int-hashv3(字符串键,int种子){
整数余数;
整数字节;
int-h1;
int h1b;
int c1;
int c2;
int k1;
int i;
余数=key.length()&3;//key.length%4
字节=key.length()-余数;
h1=种子;
c1=0xcc9e2d51;
c2=0x1b873593;
i=0;
while(i<字节){
k1=((键字符(i)和0xff))|((键字符(++i)和0xff)16)*c1)和0xffff)>17);
k1=(((k1&0xffff)*c2)+(((k1>>>16)*c2)&0xffff>19);
h1b=((h1和0xffff)*5)+((h1>>16)*5和0xffff>>16)+0xe654和0xffff)16)*c1)和0xffff>17);
k1=((k1&0xffff)*c2)+(((k1>>>16)*c2)&0xffff>>16;
h1=((h1和0xffff)*0x85ebca6b)+(((h1>>16)*0x85ebca6b)和0xffff>>13;
h1=((h1和0xffff)*0xc2b2ae35)+((h1>>16)*0xc2b2ae35)和0xffff>>16;
返回h1>>>0;
}
在这两种情况下,我在尝试获取分区值时得到相同的结果。分区值(下表中的p)是哈希方法返回值的模8(%8)
下面是我得到的结果的一个示例:
键| NodeJS | p | Apache | p | N到A | p |相同
0009B5192951 | 1285784451 | 3 | 1285784451 | 3 | 1285784451 | 3 |正确
0009B5192953 | 2252321193 | 1 |-2042646103 |-7 |-2042646103 |-7 |假
0009B5192979 | 973658619 | 3 | 973658619 | 3 | 973658619 | 3 |正确
0009B5192985 | 1359432313 | 1 | 1359432313 | 1 | 1359432313 | 1 |正确
0009B5192987 | 3551230334 | 6 |-743736962 |-2 |-743736962 |-2 |假
0009B5192995 | 199863683 | 3 | 199863683 | 3 | 199863683 | 3 |正确
0009B5193001 | 1660947343 | 7 | 1660947343 | 7 | 1660947343 | 7 |正确
0009B5193007 | 1980598253 | 5 | 1980598253 | 5 | 1980598253 | 5 |正确
0009B5203789 | 1358113422 | 6 | 1358113422 | 6 | 1358113422 | 6 |正确
0009B5203791 | 1339226023 | 7 | 1339226023 | 7 | 1339226023 | 7 |正确
如您所见,在某些情况下,Apache杂音散列方法返回一个负值,这是不期望的(我猜)
有人能告诉我我做错了什么吗?我忘记了精确地使用原始java类的方法:
int ret=murrushash3.murrushash3x8632(key.getBytes(),0,key.length(),new Long(KAFKA_PARTITION_SEED).intValue();
你认为错误可能来自getBytes()方法吗?