Algorithm 在数百万用户编辑的音频文件中查找重复内容（音频内容哈希）_Algorithm_Audio_Hash_Audio Processing

Algorithm 在数百万用户编辑的音频文件中查找重复内容（音频内容哈希）

algorithm audio hash

Algorithm 在数百万用户编辑的音频文件中查找重复内容（音频内容哈希）,algorithm,audio,hash,audio-processing,Algorithm,Audio,Hash,Audio Processing,我有一个问题，包括处理超过一百万个音频文件（来自用户生成的视频内容），这些文件可能已经被编辑（大部分是剪切）并以各种质量上传。我的任务是将所有重复项映射到一个项目ID，以便我们可以在以后进行筛选，只显示完整长度和最佳质量的视频由于视频之间的视觉差异在不同的文件之间可能不会有所不同，因此我们希望将音频曲目用于我们的目的。这就是为什么我要搜索音频内容哈希，它有点抵抗上面提到的事情。你可以称之为“沙扎姆”问题我的问题是：您认为找到这些潜在副本的最简单方法是什么（可以手动批准）？一个子问题是：如何

我有一个问题，包括处理超过一百万个音频文件（来自用户生成的视频内容），这些文件可能已经被编辑（大部分是剪切）并以各种质量上传。我的任务是将所有重复项映射到一个项目ID，以便我们可以在以后进行筛选，只显示完整长度和最佳质量的视频

由于视频之间的视觉差异在不同的文件之间可能不会有所不同，因此我们希望将音频曲目用于我们的目的。这就是为什么我要搜索音频内容哈希，它有点抵抗上面提到的事情。你可以称之为“沙扎姆”问题

我的问题是：您认为找到这些潜在副本的最简单方法是什么（可以手动批准）？

一个子问题是：如何解决不处理不同音频文件块的问题（确保来自两个不同长度音频的哈希输入始终相同）。

我目前的方法是通过音频进行处理，在给定的时间窗口内，利用声波的每个局部高点，在接下来的20-30秒块上生成某种散列。我可以很容易地为每个文件存储几十个散列，只要重复查找过程是某种键值查找，而不是与所有其他散列的交叉点

我没有可以使用的元数据或其他任何东西。

有一个非常好的描述shazam如何在内部工作：

他们搜索最显著的频率分量及其相对距离，并以一种智能的方式存储这些距离，以便快速搜索和匹配

这看起来可能非常复杂，但要对音频文件进行可靠的指纹识别，需要付出一些努力，这根本不是一个小问题。

有一个非常好的说明shazam如何在内部工作：

他们搜索最显著的频率分量及其相对距离，并以一种智能的方式存储这些距离，以便快速搜索和匹配

这看起来可能非常复杂，但要对音频文件进行可靠的指纹识别，需要付出一些努力，这根本不是一个小问题。

主要用于音乐，可能用于语音，而不是一般的声音/噪音感谢论文-我来看看。我的问题是，在大多数情况下，它不是音乐。它主要用于音乐，可能用于演讲，而不是一般的声音/噪音。谢谢你的论文，我来看看。我的问题是，在大多数情况下，这不是音乐。