Algorithm 算法建议：比较声音片段_Algorithm_Audio_Artificial Intelligence

Algorithm 算法建议：比较声音片段

algorithm audio artificial-intelligence

Algorithm 算法建议：比较声音片段,algorithm,audio,artificial-intelligence,Algorithm,Audio,Artificial Intelligence,（不确定这是否是该问题的正确位置）我们正在分析成千上万的人们说话的声音片段，试图找到音调、音节频率等的模式，以便建立一个特征数据库，将新的声音片段与情感相匹配虽然我熟悉一些人工智能算法（例如贝叶斯算法），但我很好奇是否有人对我们可以使用的算法类型有任何想法总体概念（图2-5秒wav短片）：给定一个新的声音片段，我们想做一些类似于Shazzam的事情，除了返回一个可能性，即该片段代表一种特定的情感如有任何建议，将不胜感激尝试根据片段的振幅和频率对片段进行标准化，使其具有可比性然后测量

（不确定这是否是该问题的正确位置）

我们正在分析成千上万的人们说话的声音片段，试图找到音调、音节频率等的模式，以便建立一个特征数据库，将新的声音片段与情感相匹配

虽然我熟悉一些人工智能算法（例如贝叶斯算法），但我很好奇是否有人对我们可以使用的算法类型有任何想法

总体概念（图2-5秒wav短片）：

给定一个新的声音片段，我们想做一些类似于Shazzam的事情，除了返回一个可能性，即该片段代表一种特定的情感

如有任何建议，将不胜感激

尝试根据片段的振幅和频率对片段进行标准化，使其具有可比性

然后测量振幅和光谱特性，如方差、自相关、最小值/最大值的数量等

这些测量允许将每个剪辑视为n维空间中的向量。可以使用聚类分析方法查找相邻片段。主成分分析（PCA）可能有助于找到或多或少有意义的属性维度

需要大量阅读模式识别、信号处理和聚类分析文本才能了解可能的情况。

这听起来非常接近我要找的内容。可视化一个N向量，其中每个值对应于光谱分析的一个分量，听起来非常接近我所需要的。因此，理想情况下，在尝试理解已分类的10k+音频剪辑时，我会寻找一组属性（音高、频带窄度、每秒音节数等），所有这些属性都会产生类似的向量？是的，没错。您基本上是在使用具有已知语义属性的剪辑进行训练。分析他们的不同之处。技术是以这样一种方式调整测量尺寸，即它们可以被有效地评估，并且仍然可以作为可靠的区分标准（谷歌“矢量量化器”）。整个工作流程应该类似于OCR字符识别。绝对完美！非常感谢您的帮助。我只是想跟进一下，说这是一个很好的例子。我们正在使用openSMILE框架的一个稍加修改的版本，它工作得非常好。GoogleScholar将是你最好的朋友。Mike Nakis的意思是，我要直截了当地说：这是一个重要的研究项目，需要机器学习方面的专业知识，可能需要听觉学家、言语专家、心理学家等的大量投入。从AVEC开始，视听情感挑战赛将在今年进入第五个年头，如果他们有。

soundClip1 -> 'anger'
soundClip2 -> 'happy'
soundClip3 -> 'sad'
...
emotion = predict(newSoundClip)