Audio 声音匹配/搜索

Audio 声音匹配/搜索,audio,Audio,在实际应用中,声音匹配/搜索的技术现状如何?我目前正在远程参与规划一个web应用程序,其中包括一个包含并公开录制的短音频片段数据库(最多3-5秒,人名)。有人提出了一个问题,即是否有可能实现基于用户语音输入的搜索。我的直觉告诉我,无论从计算角度还是从算法角度来看,这都是一项不可能完成的任务,尤其是在web应用程序中(此外,它不是应用程序的核心功能)。我意识到可能有许多学术项目,这将是一个很好的研究课题,但它不是任何可以作为附加功能实现到中型web应用程序的东西。为了支持我的说法,我花了半个小时搜

在实际应用中,声音匹配/搜索的技术现状如何?我目前正在远程参与规划一个web应用程序,其中包括一个包含并公开录制的短音频片段数据库(最多3-5秒,人名)。有人提出了一个问题,即是否有可能实现基于用户语音输入的搜索。我的直觉告诉我,无论从计算角度还是从算法角度来看,这都是一项不可能完成的任务,尤其是在web应用程序中(此外,它不是应用程序的核心功能)。我意识到可能有许多学术项目,这将是一个很好的研究课题,但它不是任何可以作为附加功能实现到中型web应用程序的东西。为了支持我的说法,我花了半个小时搜索,这样我就不会错过任何明显的东西,但我真的找不到任何好的来源


我知道,如果不花更多时间自己研究,就这么问问题是不负责任的,但我一直注意到,就这么问问题要比随便用谷歌搜索更有效、更准确、更快。

有一些音频指纹技术(大部分是专有的),它本质上是对音频文件进行“散列”。然后搜索是一个简单的哈希表或数据库查找

Musicbrainz拥有丰富的各种技术


这些指纹是否适合您的特定情况,是否准确,我无法告诉您。

我不确定您是在根据输入识别说话人,还是将输入与数据库中的姓名相匹配。然而,我曾经有过这样的想法,即开发一个度量来计算两个口语单词的“距离”。我甚至从未接近实现,但我发现了以下几点:

1) 您需要定义音频的重要功能。这是尼克在回答中描述的“散列”部分。即使是光谱图也可能包含太多有用的信息。我发现一种潜在有趣的方法(没有任何关于语音研究的理论知识)是MFCC(即mel频率倒谱系数)。etsi.org上有免费代码(查找语音规则和标准)

2) 说话的速度可能会变化,这会使事情变得复杂。动态时间扭曲可以用来解决这个问题。看看这个例子


我认为这不太容易实现,需要进行很多调整。而且它绝对不是最先进的。

我不确定EchoNest是否对您有用,但您可能想查找它。