Python 如何比较两个音频文件的声音相似性,而不是转录成什么?

Python 如何比较两个音频文件的声音相似性,而不是转录成什么?,python,speech-recognition,libraries,Python,Speech Recognition,Libraries,我正在尝试为我一直在使用的语言习得工具添加一个功能,将用户的口音与实际发音进行比较。我使用语音识别来转录本机音频文件和用户录制的音频,以比较它们,但这在谈论口音时毫无帮助。所以,我想知道是否有任何方法可以比较音频文件的“声音”与它们的大致相似程度

我正在尝试为我一直在使用的语言习得工具添加一个功能,将用户的口音与实际发音进行比较。我使用语音识别来转录本机音频文件和用户录制的音频,以比较它们,但这在谈论口音时毫无帮助。所以,我想知道是否有任何方法可以比较音频文件的“声音”与它们的大致相似程度