Speech recognition 基于相似分析器的说话人二值化_Speech Recognition_Speech To Text_Diarization

Speech recognition 基于相似分析器的说话人二值化

speech-recognition

Speech recognition 基于相似分析器的说话人二值化,speech-recognition,speech-to-text,diarization,Speech Recognition,Speech To Text,Diarization,我不熟悉演讲者日记，正在探索图书馆，有几个问题。我在这里看了日记演示：使用实时音频流而不是静态音频文件：我看到演示使用了一个静态mp3文件，尽管在我的用例中，我将使用一个实时音频流。Analyzer是否支持语音日记的流式输入？如果是这样的话，我是否可以找到一些参考资料/示例代码音频流开头未知的扬声器数量：与给定的“演示代码”不同，在我的用例中，演讲者的总数是预先确定的，我将尝试从现场会议中传输音频，这意味着可能事先不知道用户的总数（是的，我们知道有多少人收到了会议邀请，但不一定所有人都会

我不熟悉演讲者日记，正在探索图书馆，有几个问题。我在这里看了日记演示：

使用实时音频流而不是静态音频文件： 我看到演示使用了一个静态mp3文件，尽管在我的用例中，我将使用一个实时音频流。Analyzer是否支持语音日记的流式输入？如果是这样的话，我是否可以找到一些参考资料/示例代码

音频流开头未知的扬声器数量： 与给定的“演示代码”不同，在我的用例中，演讲者的总数是预先确定的，我将尝试从现场会议中传输音频，这意味着可能事先不知道用户的总数（是的，我们知道有多少人收到了会议邀请，但不一定所有人都会加入）。在这种情况下，我如何使Similyzer不仅能够检测特定的说话人在讲话，而且能够检测到有一个新用户在讲话，如果他以前没有发言过？iXyzer是否支持该功能？我在哪里可以找到这方面的参考资料

预先培训的英语日记模式： 我想使用一个已经存在的模型，我可以使用一些预先训练好的日记模型，只要它能够实时检测到一个新的说话人。我怎样才能找到一些预先训练好的、可以直接使用的日记模型，看看这个模型的性能如何

谢谢