Algorithm 在数百万用户编辑的音频文件中查找重复内容(音频内容哈希)

Algorithm 在数百万用户编辑的音频文件中查找重复内容(音频内容哈希),algorithm,audio,hash,audio-processing,Algorithm,Audio,Hash,Audio Processing,我有一个问题,包括处理超过一百万个音频文件(来自用户生成的视频内容),这些文件可能已经被编辑(大部分是剪切)并以各种质量上传。我的任务是将所有重复项映射到一个项目ID,以便我们可以在以后进行筛选,只显示完整长度和最佳质量的视频 由于视频之间的视觉差异在不同的文件之间可能不会有所不同,因此我们希望将音频曲目用于我们的目的。这就是为什么我要搜索音频内容哈希,它有点抵抗上面提到的事情。你可以称之为“沙扎姆”问题 我的问题是:您认为找到这些潜在副本的最简单方法是什么(可以手动批准)? 一个子问题是:如何

我有一个问题,包括处理超过一百万个音频文件(来自用户生成的视频内容),这些文件可能已经被编辑(大部分是剪切)并以各种质量上传。我的任务是将所有重复项映射到一个项目ID,以便我们可以在以后进行筛选,只显示完整长度和最佳质量的视频

由于视频之间的视觉差异在不同的文件之间可能不会有所不同,因此我们希望将音频曲目用于我们的目的。这就是为什么我要搜索音频内容哈希,它有点抵抗上面提到的事情。你可以称之为“沙扎姆”问题

我的问题是:您认为找到这些潜在副本的最简单方法是什么(可以手动批准)?

一个子问题是:如何解决不处理不同音频文件块的问题(确保来自两个不同长度音频的哈希输入始终相同)。

我目前的方法是通过音频进行处理,在给定的时间窗口内,利用声波的每个局部高点,在接下来的20-30秒块上生成某种散列。我可以很容易地为每个文件存储几十个散列,只要重复查找过程是某种键值查找,而不是与所有其他散列的交叉点


我没有可以使用的元数据或其他任何东西。

有一个非常好的描述shazam如何在内部工作:

他们搜索最显著的频率分量及其相对距离,并以一种智能的方式存储这些距离,以便快速搜索和匹配


这看起来可能非常复杂,但要对音频文件进行可靠的指纹识别,需要付出一些努力,这根本不是一个小问题。

有一个非常好的说明shazam如何在内部工作:

他们搜索最显著的频率分量及其相对距离,并以一种智能的方式存储这些距离,以便快速搜索和匹配


这看起来可能非常复杂,但要对音频文件进行可靠的指纹识别,需要付出一些努力,这根本不是一个小问题。

主要用于音乐,可能用于语音,而不是一般的声音/噪音感谢论文-我来看看。我的问题是,在大多数情况下,它不是音乐。它主要用于音乐,可能用于演讲,而不是一般的声音/噪音。谢谢你的论文,我来看看。我的问题是,在大多数情况下,这不是音乐。