Audio 波形函数

Audio 波形函数,audio,Audio,我们有3个小时的音频,每个瞬间包含两个人中的一个在说话或沉默。我们需要使用hmm确定每个时刻对应的选项 为此,当波形不同(正弦、saw、方形等)时,有哪些并非异常困难的函数会给出不同的输出,但对于不同的音量、音高等,它们的答案是相同的 这个项目可行吗?识别简单的波形,如正弦和平方波,是一个完全不同于人类语言的解决方案。你想在两者之间建立什么样的联系?我们认为音质或音色与波形有关,而波形又可能暗示说话人。如果这是一个错误的假设,那么与扬声器相关的声波的最简单特征是什么?我知道有一些图书馆可以做这一

我们有3个小时的音频,每个瞬间包含两个人中的一个在说话或沉默。我们需要使用hmm确定每个时刻对应的选项

为此,当波形不同(正弦、saw、方形等)时,有哪些并非异常困难的函数会给出不同的输出,但对于不同的音量、音高等,它们的答案是相同的


这个项目可行吗?

识别简单的波形,如正弦和平方波,是一个完全不同于人类语言的解决方案。你想在两者之间建立什么样的联系?我们认为音质或音色与波形有关,而波形又可能暗示说话人。如果这是一个错误的假设,那么与扬声器相关的声波的最简单特征是什么?我知道有一些图书馆可以做这一切,但是有没有什么方法可以让我们自己去做呢?结果不一定要100%准确。一个近似值就足够了。你可以考虑使用快速傅立叶变换(FFT),它基本上会给出输入音频的频率和振幅。由于每个声波都由许多频率组成,FFT将告诉您波的“形状”。根据每个人所说的元音/辅音的不同,它会有所不同,但通过一些过滤和HMM或随机决策林分类器,你可以识别说话人。识别简单的波形,如正弦和平方,是一种与人类语音完全不同的解决方案。你想在两者之间建立什么样的联系?我们认为音质或音色与波形有关,而波形又可能暗示说话人。如果这是一个错误的假设,那么与扬声器相关的声波的最简单特征是什么?我知道有一些图书馆可以做这一切,但是有没有什么方法可以让我们自己去做呢?结果不一定要100%准确。一个近似值就足够了。你可以考虑使用快速傅立叶变换(FFT),它基本上会给出输入音频的频率和振幅。由于每个声波都由许多频率组成,FFT将告诉您波的“形状”。它会根据每个人说的元音/辅音而有所不同,但通过一些过滤和HMM或随机决策林分类器,您可能能够识别说话人。