Speech recognition 基于相似分析器的说话人二值化

Speech recognition 基于相似分析器的说话人二值化,speech-recognition,speech-to-text,diarization,Speech Recognition,Speech To Text,Diarization,我不熟悉演讲者日记,正在探索图书馆,有几个问题。我在这里看了日记演示: 使用实时音频流而不是静态音频文件: 我看到演示使用了一个静态mp3文件,尽管在我的用例中,我将使用一个实时音频流。Analyzer是否支持语音日记的流式输入?如果是这样的话,我是否可以找到一些参考资料/示例代码 音频流开头未知的扬声器数量: 与给定的“演示代码”不同,在我的用例中,演讲者的总数是预先确定的,我将尝试从现场会议中传输音频,这意味着可能事先不知道用户的总数(是的,我们知道有多少人收到了会议邀请,但不一定所有人都会

我不熟悉演讲者日记,正在探索图书馆,有几个问题。我在这里看了日记演示:

使用实时音频流而不是静态音频文件: 我看到演示使用了一个静态mp3文件,尽管在我的用例中,我将使用一个实时音频流。Analyzer是否支持语音日记的流式输入?如果是这样的话,我是否可以找到一些参考资料/示例代码

音频流开头未知的扬声器数量: 与给定的“演示代码”不同,在我的用例中,演讲者的总数是预先确定的,我将尝试从现场会议中传输音频,这意味着可能事先不知道用户的总数(是的,我们知道有多少人收到了会议邀请,但不一定所有人都会加入)。在这种情况下,我如何使Similyzer不仅能够检测特定的说话人在讲话,而且能够检测到有一个新用户在讲话,如果他以前没有发言过?iXyzer是否支持该功能?我在哪里可以找到这方面的参考资料

预先培训的英语日记模式: 我想使用一个已经存在的模型,我可以使用一些预先训练好的日记模型,只要它能够实时检测到一个新的说话人。我怎样才能找到一些预先训练好的、可以直接使用的日记模型,看看这个模型的性能如何

谢谢