Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/343.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 加载文件MD5的最快方法是什么?_Java_Android_Md5_Md5sum_Md5 File - Fatal编程技术网

Java 加载文件MD5的最快方法是什么?

Java 加载文件MD5的最快方法是什么?,java,android,md5,md5sum,md5-file,Java,Android,Md5,Md5sum,Md5 File,我想加载不同文件的MD5。我是按照这个方法来做的,但是主要的问题是加载MD5文件所花费的时间(可能有数百个)太多了 是否有任何方法可以用来查找文件的MD5而不需要花费太多时间 注意-文件大小可能很大(可能高达300MB)。 这是我正在使用的代码- import java.io.*; import java.security.MessageDigest; public class MD5Checksum { public static byte[] createChecksum(Stri

我想加载不同文件的MD5。我是按照这个方法来做的,但是主要的问题是加载MD5文件所花费的时间(可能有数百个)太多了

是否有任何方法可以用来查找文件的MD5而不需要花费太多时间

注意-文件大小可能很大(可能高达300MB)。

这是我正在使用的代码-

import java.io.*;
import java.security.MessageDigest;

public class MD5Checksum {

   public static byte[] createChecksum(String filename) throws Exception {
       InputStream fis =  new FileInputStream(filename);

       byte[] buffer = new byte[1024];
       MessageDigest complete = MessageDigest.getInstance("MD5");
       int numRead;

       do {
           numRead = fis.read(buffer);
           if (numRead > 0) {
               complete.update(buffer, 0, numRead);
           }
       } while (numRead != -1);

       fis.close();
       return complete.digest();
   }

   // see this How-to for a faster way to convert
   // a byte array to a HEX string
   public static String getMD5Checksum(String filename) throws Exception {
       byte[] b = createChecksum(filename);
       String result = "";

       for (int i=0; i < b.length; i++) {
           result += Integer.toString( ( b[i] & 0xff ) + 0x100, 16).substring( 1 );
       }
       return result;
   }

   public static void main(String args[]) {
       try {
           System.out.println(getMD5Checksum("apache-tomcat-5.5.17.exe"));
           // output :
           //  0bb2827c5eacf570b6064e24e0e6653b
           // ref :
           //  http://www.apache.org/dist/
           //          tomcat/tomcat-5/v5.5.17/bin
           //              /apache-tomcat-5.5.17.exe.MD5
           //  0bb2827c5eacf570b6064e24e0e6653b *apache-tomcat-5.5.17.exe
       }
       catch (Exception e) {
           e.printStackTrace();
       }
   }
}
import java.io.*;
导入java.security.MessageDigest;
公共类MD5Checksum{
公共静态字节[]createChecksum(字符串文件名)引发异常{
InputStream fis=新文件InputStream(文件名);
字节[]缓冲区=新字节[1024];
MessageDigest complete=MessageDigest.getInstance(“MD5”);
国际货币联盟;
做{
numRead=fis.read(缓冲区);
如果(numRead>0){
完成。更新(缓冲区,0,numRead);
}
}而(numRead!=-1);
fis.close();
返回complete.digest();
}
//请参见“如何转换”以了解更快的转换方法
//将字节数组转换为十六进制字符串
公共静态字符串getMD5Checksum(字符串文件名)引发异常{
字节[]b=创建校验和(文件名);
字符串结果=”;
for(int i=0;i
哈希/CRC计算需要一些时间,因为必须完全读取文件

您提供的
createChecksum
代码几乎是最佳的。唯一可以调整的部分是读取缓冲区大小(我将使用2048字节或更大的缓冲区大小)。但是,这可能会使您的速度最多提高1-2%


如果这仍然太慢,那么剩下的唯一选择就是在C/C++中实现哈希,并将其用作本机方法。除此之外,你无能为力

不能使用哈希来确定内容的任何相似性。
例如,生成hellostackoverflow1和hellostackoverflow2的MD5会计算两个哈希值,其中字符串表示的所有字符都不匹配(7c35[…]85fa与b283[…]3d19)。这是因为散列是基于文件的二进制数据计算的,因此同一事物的两种不同格式-例如相同文本的.txt和.docx-具有不同的散列


但是正如前面提到的,使用本机代码(因此是NDK)可能会达到一定的速度。此外,如果仍要比较文件的精确匹配,请首先比较大小(以字节为单位),然后使用具有足够速度和低冲突风险的哈希算法。如上所述,CRC32很好。

尝试更大的缓冲区:例如
64*1024
@pskink尝试了高达
32764
的缓冲区,但仍消耗了大量的领带。另外,进一步增加缓冲区大小有什么害处吗?在十六进制转换中附加字符串会花费很多时间。使用`biginger.toHexString()`.@EJP冲突的可能性有多大?非常感谢您的回答。由于我对C/C++不太熟悉,你能给我举个例子说明如何做到这一点吗。如果检查两个文件是否相同,如果
crc32
校验和也可以吗?要检查两个文件是否相同,可以使用crc32。顺便问一下,在计算哈希和之前,您是否检查文件大小是否匹配?@Rahulrr2602:是否使用md5或crc32取决于您。这取决于您的要求碰撞发生的可能性以及后果。有关详细信息,请参阅。如果您没有C语言经验,那么演示本机实现就超出了范围。可能有一个现有的Android库可用,但我不知道。@Ch4t4r谢谢,但在找到MD5之前,我没有检查文件的大小。原因是我想根据内容而不是大小来检查文件的相似性。两个不同的文件是否可能具有相同的内容,但格式不同,因此大小不同?不能使用哈希来确定内容的任何相似性。例如,生成
hellostackoverflow1
hellostackoverflow2
的MD5会计算两个哈希值,其中字符串表示的字符都不匹配(7c35[…]85fa与b283[…]3d19)。这是因为散列是基于文件的二进制数据计算的,因此同一事物的两种不同格式-例如相同文本的.txt和.docx-具有不同的散列。