C#来自系统音频的语音识别(扬声器声音)

C#来自系统音频的语音识别(扬声器声音),c#,speech-recognition,C#,Speech Recognition,我看到过输入设备的语音识别(显然)和文件()的语音识别。然而,我想知道是否有可能在系统音频上实时运行语音识别。通过系统音频,扬声器发出的声音 对于那些听力有障碍的人来说,这将是一个很好的工具,因为他们正在观看YouTube视频,C#应用程序可以转录所说的内容 如何进行此操作?非常简单-进入混音器,选择输入并启用/取消静音“立体声混音”。当然,如果你不想录制,你应该让麦克风静音。然后,只需以录制麦克风的相同方式开始录制,现在您将以数字质量获得与扬声器相同的音源 这可能是,尽管它可能很复杂——特别是

我看到过输入设备的语音识别(显然)和文件()的语音识别。然而,我想知道是否有可能在系统音频上实时运行语音识别。通过系统音频,扬声器发出的声音

对于那些听力有障碍的人来说,这将是一个很好的工具,因为他们正在观看YouTube视频,C#应用程序可以转录所说的内容


如何进行此操作?

非常简单-进入混音器,选择输入并启用/取消静音“立体声混音”。当然,如果你不想录制,你应该让麦克风静音。然后,只需以录制麦克风的相同方式开始录制,现在您将以数字质量获得与扬声器相同的音源

这可能是,尽管它可能很复杂——特别是如果你想支持WinXP以及Vista/Win7(虽然我还没有使用它们,但Vista中的声音已经过彻底的修改,我相信是的)

在尝试识别之前,您几乎肯定需要过滤声音。除非演讲录音。您正在使用的图书馆设计用于在不利条件下工作,音乐和特效会干扰正确识别,多人同时讲话也会干扰正确识别

如果你没有一个超级健壮的库,那么衰减非人声频率的滤波器将是必须的。您可能还需要应用音量标准化来解释嘈杂/安静的场景-有数百个过滤器可能会改进匹配

您可能希望访问最低级别的识别API以获得尽可能多的控制-您需要调整它以应对人们的叫喊、屏息、哭泣等。。。如果您开始设计灵活的底层访问,那么如果您以后发现需要它并且需要重新构建,那么可能会节省几周的时间

我建议你把它作为音频处理的起点

我怀疑你不需要太多的努力就能得到在理想条件下工作的东西,但是调整它使其在任何情况下都能很好地工作可能是一项艰巨的任务。尽管如此,这听起来像是一个有趣的项目


通过创建特定于类型、用户或显示的词典,可以大大提高识别率。这些可以预先生成,也可以使用加权反馈循环自动生成,也可以允许用户纠正错误。

可能需要检查,可能是重复的。我想他知道如何做到这一点,但他只是想知道如何将c#指向系统产生的音频流。