Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 如何在文件比较算法中降低CPU利用率?_Algorithm_File_Compare - Fatal编程技术网

Algorithm 如何在文件比较算法中降低CPU利用率?

Algorithm 如何在文件比较算法中降低CPU利用率?,algorithm,file,compare,Algorithm,File,Compare,我有大约2000个文件要相互比较,让我们忘掉技术平台吧。理想情况下,这将导致2000*1999/2,即1999000次比较,这将导致大量CPU消耗。还有别的办法吗?合并所有文件,生成一个大文件,并将2000个文件与这个大合并进行比较,这是正在考虑和尝试的事情。所有冗余对都已被消除 如果对此有任何高层想法,我们将不胜感激 谢谢大家! 你比较它们的目的是什么?你是否消除了重复项?这取决于你如何比较它们和你的相似性度量。我使用我工作的操作系统提供的行比较实用程序比较它们的文本匹配。重复、冗余和自比较已

我有大约2000个文件要相互比较,让我们忘掉技术平台吧。理想情况下,这将导致2000*1999/2,即1999000次比较,这将导致大量CPU消耗。还有别的办法吗?合并所有文件,生成一个大文件,并将2000个文件与这个大合并进行比较,这是正在考虑和尝试的事情。所有冗余对都已被消除

如果对此有任何高层想法,我们将不胜感激


谢谢大家!

你比较它们的目的是什么?你是否消除了重复项?这取决于你如何比较它们和你的相似性度量。我使用我工作的操作系统提供的行比较实用程序比较它们的文本匹配。重复、冗余和自比较已经消除。平均文件大小是1000 KB,我有2000个这样的文件。你为什么不比较一下?您可以使用散列函数定义“文本匹配”,如果您要查找精确的副本,它就像散列(文件)一样简单,并且只比较具有相同散列值的文件。如果你在寻找更复杂的东西(如近重复检测),这将取决于你使用的确切指标。你比较它们的目的是什么,你是否消除重复?这将取决于你如何比较它们和你的相似性指标。我比较它们的文本匹配,使用我使用的操作系统提供的行比较实用程序。重复、冗余和自比较已经消除。平均文件大小是1000 KB,我有2000个这样的文件。你为什么不比较一下?您可以使用散列函数定义“文本匹配”,如果您要查找精确的副本,它就像散列(文件)一样简单,并且只比较具有相同散列值的文件。如果您正在寻找更复杂的东西(如近重复检测),这将取决于您使用的确切度量。