Voice recognition 能否将Microsoft Bing语音配置为仅返回数字/字母?
是否可以将Microsoft Bing语音API配置为只返回数字和字母,而不是完整的单词 用例是翻译加拿大邮政编码。例如M 1 B 0 R 3。Microsoft可能返回“Em 1为0为3” 我们的音频文件为8000hz,编码为“M-ULAW”。我们在更改采样率或编码方面没有灵活性。我们使用的是“SMD”场景,但我找不到任何关于它的文档。基本请求URI:Voice recognition 能否将Microsoft Bing语音配置为仅返回数字/字母?,voice-recognition,microsoft-cognitive,bing-speech,Voice Recognition,Microsoft Cognitive,Bing Speech,是否可以将Microsoft Bing语音API配置为只返回数字和字母,而不是完整的单词 用例是翻译加拿大邮政编码。例如M 1 B 0 R 3。Microsoft可能返回“Em 1为0为3” 我们的音频文件为8000hz,编码为“M-ULAW”。我们在更改采样率或编码方面没有灵活性。我们使用的是“SMD”场景,但我找不到任何关于它的文档。基本请求URI: https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672
https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672-91D7-4C74-8AD8-42B1D98141A5和device.os=您的设备\u os和version=3.0
有没有一种方法可以让微软对这个用例做出更准确的响应
谢谢您可以尝试使用(以前称为自定义识别智能服务,或CRIS)创建和使用
“通用首字母缩略词可以作为单个实体保留,字母之间不带句点或空格,但所有其他首字母缩略词应以单独的字母书写,每个字母用单独的空格分隔”,并包括以下示例:
Original text After normalization
----------------------- ---------------------------
play OU812 by Van Halen play O U 8 1 2 by Van Halen
因此,按照他们的指导原则,您的自定义语言模型将是一个文件,其中每一行看起来如下所示:
M 1 B 0 R 3
[ABCEGHJKLMNPRSTVXY][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9]
您可以根据代码的结构轻松生成一个包含数千个加拿大邮政编码示例的文件,其正则表达式格式如下所示:
M 1 B 0 R 3
[ABCEGHJKLMNPRSTVXY][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9]
(以上表达式取自。)
通过这样做,您可以告诉识别器您希望人们说什么,并帮助识别器选择声音的多种可能性(例如“U”和“您”)。我认为这将对你得到的结果产生巨大的影响。所以我所做的是:我上传了一个由所有加拿大邮政编码前缀(M1B、M8X、B3L等)组成的换行分隔文件,而不是语言模型数据集中所有可能的邮政编码的文件。结果仍然不完美。例如,“R2G”仍被转录为“R2C”。我认为声学语言模型可能是一个更好的选择,但这需要收集大量的示例音频文件。对,我忘了提到这一点,特别是因为您使用µ-law/mu-law编码,创建您自己的声学模型也会有所帮助。我认为定制语言模型将是您能做的最好的事情。一些识别系统(例如pocketsphinx)允许您指定语法,而不是统计语言模型,这也值得尝试。