Dialogflow es 使用Google SR插件和动态语音上下文提高Google云语音到文本API和Dialogflow的性能

Dialogflow es 使用Google SR插件和动态语音上下文提高Google云语音到文本API和Dialogflow的性能,dialogflow-es,speech-to-text,cisco,google-cloud-speech,unimrcp,Dialogflow Es,Speech To Text,Cisco,Google Cloud Speech,Unimrcp,任务:我们正在尝试构建一个Dialogflow代理,它将通过Cisco电话堆栈与呼叫者进行交互。我们将尝试从调用方收集字母数字凭据 以下是我们建议的架构: 问题:为了向Dialogflow发送文本输入,我们正在使用Google Cloud的Speech to text(STT)API将调用方的音频转换为文本。然而,STTAPI并不总是按预期执行。例如,如果呼叫者希望说他/她的DOB是04-04-90,则转录的音频可能返回为oh For oh 490。然而,通过传递到API,转录的音频可以得到极

任务:我们正在尝试构建一个Dialogflow代理,它将通过Cisco电话堆栈与呼叫者进行交互。我们将尝试从调用方收集字母数字凭据

以下是我们建议的架构:

问题:为了向Dialogflow发送文本输入,我们正在使用Google Cloud的Speech to text(STT)API将调用方的音频转换为文本。然而,STTAPI并不总是按预期执行。例如,如果呼叫者希望说他/她的DOB是
04-04-90
,则转录的音频可能返回为
oh For oh 490
。然而,通过传递到API,转录的音频可以得到极大的改进,因此我们需要根据场景动态发送这些提示。不幸的是,我们很难理解如何通过UniMRCP服务器(特别是服务器)动态传递这些短语提示

问题: 谷歌语音识别手册第5.2节概述了使用动态语音上下文

提供的示例是:

<grammar mode="voice" root="booking" version="1.0" xml:lang="en-US" xmlns="http://www.w3.org/2001/06/grammar">
    <meta name="scope" content="hint"/>
    <rule id="booking">
        <one-of>
            <item> 04 04 1990</item>
            <item> 04 04 90</item>
            <item> April 4th 1990</item>
        </one-of>
    </rule>
</grammar>

    
    
        
             04 04 1990
             04 04 90
1990年4月4日
        
    
这是否仍然像内置语法
builtin:speech/transcribe
那样转录所有用户输入

例如,如果我说的是1980年3月5日,谷歌的STT会返回1980年3月5日,还是只返回其中一项


为了清楚起见,我希望Google的STT能够返回的不仅仅是提供的项目,因此如果用户说
1980年3月5日,
我希望通过UniMRCP、VBB、CVP返回,并传递给Dialogflow有人告诉我,即使STT返回1980年3月5日的
CVP或语音浏览器可能会将其评估为“不匹配”。

Dialogflow接受的不仅仅是文本输入


它可以基于或基于一个好的点进行意图检测。让我调整一下我的问题。我真的应该说,基于我们正在探索的体系结构,我们将向dialogflow发送文本,这些文本已使用Google STT从语音转换而来。但是,如果我们向dialogflow提供音频,他们会不会只是在后台使用STT API将文本与意图进行比较?是的,但您可以向dialogflow提供示例短语,其中包括日期实体类型,dialogflow可以使用这些类型为云STT进行短语成型。因此,在向dialogflow发送音频时,Dialogflow将使用我们在培训短语中提供的日期实体类型作为短语提示来云STT?如果这是真的,我们会非常高兴。这是我的理解,尽管我自己还没有测试过。和往常一样,您应该测试它们是否能像您所希望的那样工作。当然,我甚至没有意识到这种能力,所以非常感谢您提醒我注意这一点