Speech recognition 如何通过音频处理检测单词边界/估计单词数?(不带语音识别)

Speech recognition 如何通过音频处理检测单词边界/估计单词数?(不带语音识别),speech-recognition,web-audio-api,speech-to-text,speech,audio-processing,Speech Recognition,Web Audio Api,Speech To Text,Speech,Audio Processing,是否有可能通过离线的基本音频处理来检测单词边界,以获得足够准确的WPM*估计?我认为可以通过检测停顿(表示单词边界)来实现。它会是跨语言的并且适用于所有语言吗 在传统语音识别中[(不是/相反)现代机器/深度学习语音识别], 哪一个被认为是更容易/解决的部分,找到单词边界或统计匹配它们到正确的单词 我用过的样本:* Audacity中波形视图上标记的文字边界: 我将在浏览器中使用Web音频API和从Web音频API执行此操作 *每分钟字数 *更多关于我正在做的事情/我的想法: 我是名为“媒体增

是否有可能通过离线的基本音频处理来检测单词边界,以获得足够准确的WPM*估计?我认为可以通过检测停顿(表示单词边界)来实现。它会是跨语言的并且适用于所有语言吗

在传统语音识别中[(不是/相反)现代机器/深度学习语音识别], 哪一个被认为是更容易/解决的部分,找到单词边界或统计匹配它们到正确的单词

我用过的样本:*

Audacity中波形视图上标记的文字边界:

我将在浏览器中使用Web音频API和从Web音频API执行此操作

*每分钟字数


*更多关于我正在做的事情/我的想法: 我是名为“媒体增强器:音频/视频播放速度、快捷键和控件”的扩展,您可以从名称、音频元素的播放速度、新的键盘快捷键、可选的计算WPM估计值(因此我要问这个问题)中猜出新添加的功能,包括我在内的超级用户

是否有可能通过离线的基本音频处理来检测单词边界,以获得足够准确的WPM*估计

不,这相当于识别单词

有许多算法被提出用于语音速率估计,其中大多数算法仅通过检测手机,甚至是声音中的峰值来工作,您可以在这里查看示例

最近的研究包括如下机器学习:

是否有可能通过离线的基本音频处理来检测单词边界,以获得足够准确的WPM*估计

不,这相当于识别单词

有许多算法被提出用于语音速率估计,其中大多数算法仅通过检测手机,甚至是声音中的峰值来工作,您可以在这里查看示例

最近的研究包括如下机器学习: