Google cloud platform 演讲者日记与演讲者识别谷歌云与microsoft azure与ibm watson与aws转录_Google Cloud Platform_Ibm Watson_Azure Cognitive Services_Google Cloud Speech_Azure Speech

Google cloud platform 演讲者日记与演讲者识别谷歌云与microsoft azure与ibm watson与aws转录

google-cloud-platform

Google cloud platform 演讲者日记与演讲者识别谷歌云与microsoft azure与ibm watson与aws转录,google-cloud-platform,ibm-watson,azure-cognitive-services,google-cloud-speech,azure-speech,Google Cloud Platform,Ibm Watson,Azure Cognitive Services,Google Cloud Speech,Azure Speech,我想做一个语音到文本分析的项目，我想1）说话人识别2）说话人日记3）语音到文本。现在我正在测试为微软、谷歌、AWS、IBM等公司提供的各种API 我发现在Microsoft中，您可以选择用户注册和说话人识别（）然而，所有其他平台都有说话人日记，但没有说话人识别。在说话人日记中，如果我理解正确，它将能够“区分”用户，但除非我不注册他们，否则它将如何识别？我在azure中只能找到注册选项但我想确认一下，所以只想在这里检查一下，也许我正在查看正确的文档，或者可能有其他方法在谷歌云、沃森和AWS转录

我想做一个语音到文本分析的项目，我想1）说话人识别2）说话人日记3）语音到文本。现在我正在测试为微软、谷歌、AWS、IBM等公司提供的各种API 我发现在Microsoft中，您可以选择用户注册和说话人识别（）然而，所有其他平台都有说话人日记，但没有说话人识别。在说话人日记中，如果我理解正确，它将能够“区分”用户，但除非我不注册他们，否则它将如何识别？我在azure中只能找到注册选项

但我想确认一下，所以只想在这里检查一下，也许我正在查看正确的文档，或者可能有其他方法在谷歌云、沃森和AWS转录中实现这一点。如果是这样的话，你们能帮我做一下吗？

分为两类：说话人验证和说话人识别。

日记化是在一段音频中分离扬声器的过程。我们的批处理管道支持二值化，能够识别单声道录音中的两个扬声器。当您使用批转录api并启用重分类时。它将返回1,2。所有转录输出都包含一个SpeakerId。如果不使用二值化，它将在JSON输出中显示“SpeakerId”：null。对于日记化，我们支持两种声音，因此发言者将被标识为“1”或“2”。

例如：在呼叫中心场景中，客户不需要识别谁在讲话，也无法事先使用扬声器语音对模型进行培训，因为每次都有新用户来电。相反，他们只需要在将语音转换为文本时识别不同的语音

或

您可以使用视频索引器支持转录、说话人日记（枚举）和从文本和语音音调识别情感。此外，还提供了其他见解，例如主题推理、语言识别、品牌检测、翻译等。您可以通过视频或音频API使用这些见解来优化COGS。您可以使用VI进行说话人日记。获取insights JSON后，您可以在insights.transcript[0].speakerId以及insights.Speakers下找到说话人ID。在处理音频文件时，如果每个扬声器都在不同的频道上重新编码，VI会识别并相应地应用转录和日记。

分为两类：扬声器验证和扬声器识别。

或

您可以使用视频索引器支持转录、说话人日记（枚举）和从文本和语音音调识别情感。此外，还提供了其他见解，例如主题推理、语言识别、品牌检测、翻译等。您可以通过视频或音频API使用这些见解来优化COGS。您可以使用VI进行说话人日记。获取insights JSON后，您可以在insights.transcript[0].speakerId以及insights.Speakers下找到说话人ID。当处理音频文件时，每个扬声器都在不同的频道上重新编码，VI识别并相应地应用转录和日记