Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/10.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 算法建议:比较声音片段_Algorithm_Audio_Artificial Intelligence - Fatal编程技术网

Algorithm 算法建议:比较声音片段

Algorithm 算法建议:比较声音片段,algorithm,audio,artificial-intelligence,Algorithm,Audio,Artificial Intelligence,(不确定这是否是该问题的正确位置) 我们正在分析成千上万的人们说话的声音片段,试图找到音调、音节频率等的模式,以便建立一个特征数据库,将新的声音片段与情感相匹配 虽然我熟悉一些人工智能算法(例如贝叶斯算法),但我很好奇是否有人对我们可以使用的算法类型有任何想法 总体概念(图2-5秒wav短片): 给定一个新的声音片段,我们想做一些类似于Shazzam的事情,除了返回一个可能性,即该片段代表一种特定的情感 如有任何建议,将不胜感激 尝试根据片段的振幅和频率对片段进行标准化,使其具有可比性 然后测量

(不确定这是否是该问题的正确位置)

我们正在分析成千上万的人们说话的声音片段,试图找到音调、音节频率等的模式,以便建立一个特征数据库,将新的声音片段与情感相匹配

虽然我熟悉一些人工智能算法(例如贝叶斯算法),但我很好奇是否有人对我们可以使用的算法类型有任何想法

总体概念(图2-5秒wav短片):

给定一个新的声音片段,我们想做一些类似于Shazzam的事情,除了返回一个可能性,即该片段代表一种特定的情感


如有任何建议,将不胜感激

尝试根据片段的振幅和频率对片段进行标准化,使其具有可比性

然后测量振幅和光谱特性,如方差、自相关、最小值/最大值的数量等

这些测量允许将每个剪辑视为n维空间中的向量。可以使用聚类分析方法查找相邻片段。主成分分析(PCA)可能有助于找到或多或少有意义的属性维度


需要大量阅读模式识别、信号处理和聚类分析文本才能了解可能的情况。

这听起来非常接近我要找的内容。可视化一个N向量,其中每个值对应于光谱分析的一个分量,听起来非常接近我所需要的。因此,理想情况下,在尝试理解已分类的10k+音频剪辑时,我会寻找一组属性(音高、频带窄度、每秒音节数等),所有这些属性都会产生类似的向量?是的,没错。您基本上是在使用具有已知语义属性的剪辑进行训练。分析他们的不同之处。技术是以这样一种方式调整测量尺寸,即它们可以被有效地评估,并且仍然可以作为可靠的区分标准(谷歌“矢量量化器”)。整个工作流程应该类似于OCR字符识别。绝对完美!非常感谢您的帮助。我只是想跟进一下,说这是一个很好的例子。我们正在使用openSMILE框架的一个稍加修改的版本,它工作得非常好。GoogleScholar将是你最好的朋友。Mike Nakis的意思是,我要直截了当地说:这是一个重要的研究项目,需要机器学习方面的专业知识,可能需要听觉学家、言语专家、心理学家等的大量投入。从AVEC开始,视听情感挑战赛将在今年进入第五个年头,如果他们有。
soundClip1 -> 'anger'
soundClip2 -> 'happy'
soundClip3 -> 'sad'
...
emotion = predict(newSoundClip)