Audio 声音匹配/搜索_Audio - Fatal编程技术网

Audio 声音匹配/搜索

audio

Audio 声音匹配/搜索,audio,Audio,在实际应用中，声音匹配/搜索的技术现状如何？我目前正在远程参与规划一个web应用程序，其中包括一个包含并公开录制的短音频片段数据库（最多3-5秒，人名）。有人提出了一个问题，即是否有可能实现基于用户语音输入的搜索。我的直觉告诉我，无论从计算角度还是从算法角度来看，这都是一项不可能完成的任务，尤其是在web应用程序中（此外，它不是应用程序的核心功能）。我意识到可能有许多学术项目，这将是一个很好的研究课题，但它不是任何可以作为附加功能实现到中型web应用程序的东西。为了支持我的说法，我花了半个小时搜

在实际应用中，声音匹配/搜索的技术现状如何？我目前正在远程参与规划一个web应用程序，其中包括一个包含并公开录制的短音频片段数据库（最多3-5秒，人名）。有人提出了一个问题，即是否有可能实现基于用户语音输入的搜索。我的直觉告诉我，无论从计算角度还是从算法角度来看，这都是一项不可能完成的任务，尤其是在web应用程序中（此外，它不是应用程序的核心功能）。我意识到可能有许多学术项目，这将是一个很好的研究课题，但它不是任何可以作为附加功能实现到中型web应用程序的东西。为了支持我的说法，我花了半个小时搜索，这样我就不会错过任何明显的东西，但我真的找不到任何好的来源

我知道，如果不花更多时间自己研究，就这么问问题是不负责任的，但我一直注意到，就这么问问题要比随便用谷歌搜索更有效、更准确、更快。

有一些音频指纹技术（大部分是专有的），它本质上是对音频文件进行“散列”。然后搜索是一个简单的哈希表或数据库查找

Musicbrainz拥有丰富的各种技术

这些指纹是否适合您的特定情况，是否准确，我无法告诉您。

我不确定您是在根据输入识别说话人，还是将输入与数据库中的姓名相匹配。然而，我曾经有过这样的想法，即开发一个度量来计算两个口语单词的“距离”。我甚至从未接近实现，但我发现了以下几点：

1）您需要定义音频的重要功能。这是尼克在回答中描述的“散列”部分。即使是光谱图也可能包含太多有用的信息。我发现一种潜在有趣的方法（没有任何关于语音研究的理论知识）是MFCC（即mel频率倒谱系数）。etsi.org上有免费代码（查找语音规则和标准）

2）说话的速度可能会变化，这会使事情变得复杂。动态时间扭曲可以用来解决这个问题。看看这个例子

我认为这不太容易实现，需要进行很多调整。而且它绝对不是最先进的。

我不确定EchoNest是否对您有用，但您可能想查找它。