Speech recognition 如何通过音频处理检测单词边界/估计单词数？（不带语音识别）_Speech Recognition_Web Audio Api_Speech To Text_Speech_Audio Processing

Speech recognition 如何通过音频处理检测单词边界/估计单词数？（不带语音识别）

speech-recognition

Speech recognition 如何通过音频处理检测单词边界/估计单词数？（不带语音识别）,speech-recognition,web-audio-api,speech-to-text,speech,audio-processing,Speech Recognition,Web Audio Api,Speech To Text,Speech,Audio Processing,是否有可能通过离线的基本音频处理来检测单词边界，以获得足够准确的WPM*估计？我认为可以通过检测停顿（表示单词边界）来实现。它会是跨语言的并且适用于所有语言吗在传统语音识别中[（不是/相反）现代机器/深度学习语音识别]，哪一个被认为是更容易/解决的部分，找到单词边界或统计匹配它们到正确的单词我用过的样本：* Audacity中波形视图上标记的文字边界：我将在浏览器中使用Web音频API和从Web音频API执行此操作 *每分钟字数 *更多关于我正在做的事情/我的想法：我是名为“媒体增

是否有可能通过离线的基本音频处理来检测单词边界，以获得足够准确的WPM*估计？我认为可以通过检测停顿（表示单词边界）来实现。它会是跨语言的并且适用于所有语言吗

在传统语音识别中[（不是/相反）现代机器/深度学习语音识别]，哪一个被认为是更容易/解决的部分，找到单词边界或统计匹配它们到正确的单词

我用过的样本：*

Audacity中波形视图上标记的文字边界：

我将在浏览器中使用Web音频API和从Web音频API执行此操作

*每分钟字数

*更多关于我正在做的事情/我的想法：我是名为“媒体增强器：音频/视频播放速度、快捷键和控件”的扩展，您可以从名称、音频元素的播放速度、新的键盘快捷键、可选的计算WPM估计值（因此我要问这个问题）中猜出新添加的功能，包括我在内的超级用户

是否有可能通过离线的基本音频处理来检测单词边界，以获得足够准确的WPM*估计

不，这相当于识别单词

有许多算法被提出用于语音速率估计，其中大多数算法仅通过检测手机，甚至是声音中的峰值来工作，您可以在这里查看示例

最近的研究包括如下机器学习：

是否有可能通过离线的基本音频处理来检测单词边界，以获得足够准确的WPM*估计

不，这相当于识别单词

有许多算法被提出用于语音速率估计，其中大多数算法仅通过检测手机，甚至是声音中的峰值来工作，您可以在这里查看示例

最近的研究包括如下机器学习：