Speech recognition 如何度量语音文件的相似性

Speech recognition 如何度量语音文件的相似性,speech-recognition,speech,audio-fingerprinting,Speech Recognition,Speech,Audio Fingerprinting,我有两个语音文件。每个文件都是从电话通话中录制的,长度不同(第一个文件长3秒,第二个文件长5秒)。我想测量两个文件的相似性。请注意,我对语音信号中的文本内容不感兴趣(即没有语音到文本)。我只需要测量相似性,然后得到分数或百分比 我发现很少有工具可以进行音频指纹分析,但我发现几乎所有的工具都是针对音乐音频文件的,在其语音时表现不好。音频指纹不应该用于查找相似性,当您有完全相同的音频或音频片段时,应该使用音频指纹 您可能需要收集一组特征,如Mel频率倒谱系数(MFFC),并使用一种分类方法,如HNN

我有两个语音文件。每个文件都是从电话通话中录制的,长度不同(第一个文件长3秒,第二个文件长5秒)。我想测量两个文件的相似性。请注意,我对语音信号中的文本内容不感兴趣(即没有语音到文本)。我只需要测量相似性,然后得到分数或百分比


我发现很少有工具可以进行音频指纹分析,但我发现几乎所有的工具都是针对音乐音频文件的,在其语音时表现不好。

音频指纹不应该用于查找相似性,当您有完全相同的音频或音频片段时,应该使用音频指纹


您可能需要收集一组特征,如Mel频率倒谱系数(MFFC),并使用一种分类方法,如HNN,来告诉您相似性(艰苦工作)lol

亲爱的Nikolay,您能回答吗。感谢您添加此评论。希望得到您的指导。