Speech recognition 阿里云实时翻译

Speech recognition 阿里云实时翻译,speech-recognition,machine-translation,videocall,Speech Recognition,Machine Translation,Videocall,有人尝试过使用阿里云SDK创建实时视频通话应用程序吗?当我询问支持人员时,他们说国际阿里云不提供视频通话服务,但中国的阿里云提供视频通话服务。他们还提到,我可以尝试使用他们的SDK制作。我现在问他们关于提到的SDK,这些SDK是什么 如果有人在相关领域或技术方面有经验,请帮我弄清楚是否值得使用阿里云或其他云服务,因为阿里云不支持多云 非常感谢,谢谢 来自中国阿里巴巴的相关文件: 好消息:有许多潜在的供应商和选项可以拼凑在一起 坏消息是:这个问题并不容易,顶级研究和产品团队的产品也不是很强大

有人尝试过使用阿里云SDK创建实时视频通话应用程序吗?当我询问支持人员时,他们说国际阿里云不提供视频通话服务,但中国的阿里云提供视频通话服务。他们还提到,我可以尝试使用他们的SDK制作。我现在问他们关于提到的SDK,这些SDK是什么

如果有人在相关领域或技术方面有经验,请帮我弄清楚是否值得使用阿里云或其他云服务,因为阿里云不支持多云

非常感谢,谢谢

来自中国阿里巴巴的相关文件:


好消息:有许多潜在的供应商和选项可以拼凑在一起

坏消息是:这个问题并不容易,顶级研究和产品团队的产品也不是很强大

您可以在找到所有自助式机器翻译API提供程序的列表。这些提供商中的大多数还提供语音识别API,并且语音识别也可以在许多设备上使用

但是,根据您的场景,您最好使用语音对语音的方法(而不是将多个系统粘在一起),甚至使用本地模型(而不是外部API),原因有三:质量延迟,以及两者之间的交互-用户不想等待完整的句子,但也不喜欢翻译文本在生词出现时闪烁

如果搜索r/MachineTransation,您将发现:

  • 谷歌助手发布的“解释器模式”发布公告

  • 百度关于质量改进的公告

  • 来自FBK的Mattia di Gangi的两篇文章

  • 谷歌的闪烁的论文(重译与同传流译)

  • 来自谷歌的Translatron文章和论文

  • 苹果公司的景观调查

  • 来自ByteDance(TikTok)的NeurST公司的GitHub回购协议


在2019年WMT大会上,百度研究中心(Baidu Research)就此事发表了主题演讲,最近谷歌也发表了一点主题演讲,但双方都专注于自己的产品,而不是为外部开发人员提供的产品。

感谢您的描述性回答,我现在决定使用开源媒体服务器,如Jitsi,并将其与端到端翻译服务相结合,如谷歌的媒体翻译或微软的语音翻译。我倾向于微软语音翻译。我选择了微软,因为我主要需要中文、日文和英文的翻译。但我不知道是否可以将它与Jitsi(jigasi)结合使用,将它们与微软语音翻译结合起来,为Web和android创建实时视频通话应用程序。如果你能想到这一点,我将不胜感激。谢谢。糟糕的新消息,Microsoft Azure在我的国家(柬埔寨)不可用。所以我无法测试端到端语音翻译服务。你知道其他类似的服务吗?主要语言为汉语、日语和英语。提前感谢。我的建议是,从IaaS提供商的角度,将您的业务和/或帐户位置与您的实际位置分离。在朋友的帮助下,或者在你需要做的任何事情的帮助下,在他们支持的地区获得一张信用卡或者其他任何东西,否则你会一次又一次地遇到这种情况。