Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java中的复制算法_Java_Algorithm_Deduplication - Fatal编程技术网

Java中的复制算法

Java中的复制算法,java,algorithm,deduplication,Java,Algorithm,Deduplication,我正在寻找Java中的一些重复匹配算法 我有两个表。表1在一个列中包含25000个记录字符串,类似地,表2包含20000个记录字符串。 我想检查表1和表2中的重复记录。 记录的格式如下,例如: 表1 约翰,沃尔特拉 布鲁斯·威利斯 表2 沃尔特拉·乔恩 布鲁斯,威利斯 寻找可以从两个不同文件中的这两个表中找到这种类型的重复字符串加工的算法。 你能帮我介绍两种或更多的算法吗?它们可以在Java中执行这样的查询。转换成一种形式,以便进行比较。使用这些条目并查找这两个集合的名称。这些是副本。形成一个表

我正在寻找Java中的一些重复匹配算法

我有两个表。表1在一个列中包含25000个记录字符串,类似地,表2包含20000个记录字符串。 我想检查表1和表2中的重复记录。 记录的格式如下,例如:

表1

约翰,沃尔特拉

布鲁斯·威利斯

表2

沃尔特拉·乔恩

布鲁斯,威利斯

寻找可以从两个不同文件中的这两个表中找到这种类型的重复字符串加工的算法。 你能帮我介绍两种或更多的算法吗?它们可以在Java中执行这样的查询。

转换成一种形式,以便进行比较。使用这些条目并查找这两个集合的名称。这些是副本。

形成一个表格,以便进行比较。使用这些条目并查找这两个集合的名称。这些是重复项。

您可以使用
映射(例如
HashMap
)逐行读取文件,并将字符串插入映射,每次找到现有条目时都会增加值

然后,您可以在地图中搜索并找到计数大于1的所有条目。

您可以使用
地图(例如
HashMap
)逐行读取文件,并将字符串插入地图,每次找到现有条目时都会增加值


然后,您可以在地图中搜索并找到计数大于1的所有条目。

听起来像是一个特定的逻辑。因此,由您来实现它的行为,在本例中,就是确定哪些是重复的,哪些不是换句话说,“匹配副本”有现成的算法。“以这种特定方式匹配重复项”不是。这些文件“firstname lastname”和“lastname,firstname”中只使用字符串格式吗?还有其他的吗?格式的数量是否有限,或者拼写错误等是否也应该被视为重复?你能说出那些“匹配重复”算法的名称吗?可能是,它似乎也是firstname lastname和lastname firstname,但每个表只包含一个列。听起来像是一个特定的逻辑。因此,由您来实现它的行为,在本例中,就是确定哪些是重复的,哪些不是换句话说,“匹配副本”有现成的算法。“以这种特定方式匹配重复项”不是。这些文件“firstname lastname”和“lastname,firstname”中只使用字符串格式吗?还有其他的吗?格式的数量是否有限,或者拼写错误等是否也应被视为重复?您能否命名这些“匹配重复”算法。可能是,它似乎也是firstname lastname和lastname,firstname,但每个表只包含一个冒号。您能提供名称,例如可以根据需要定制的算法吗?我添加了与“名称”或使用的术语相关的链接。感谢更新链接,实际上我已经了解了这些技术,我的问题是我需要分析一些已经存在的算法。寻找重复匹配算法“我需要分析一些已经存在的算法”这是您已经或正在寻找的算法。你想对算法进行什么样的分析?不,我还不知道任何算法。我正在寻找好的算法,我可以试着找到这些问题的答案,需要多少时间才能得到准确的结果。一个算法在特定时间找到重复记录需要多少时间。算法的复杂度是多少,这些算法对大量记录的有效性如何?查找重复算法的比率是多少?你能提供名称吗?这些算法可以根据需要定制吗?我添加了与“名称”或使用的术语相关的链接。感谢更新链接,实际上我已经了解了这些技术,我的问题是我需要分析一些已经存在的算法。寻找重复匹配算法“我需要分析一些已经存在的算法”这是您已经或正在寻找的算法。你想对算法进行什么样的分析?不,我还不知道任何算法。我正在寻找好的算法,我可以试着找到这些问题的答案,需要多少时间才能得到准确的结果。一个算法在特定时间找到重复记录需要多少时间。算法的复杂度是多少,这些算法对海量记录的有效性如何,查找重复算法的比率是多少