C# 词边界的音频挖掘我计划做什么：_C#_Algorithm_Word Boundaries

C# 词边界的音频挖掘我计划做什么：

c# algorithm

C# 词边界的音频挖掘我计划做什么：,c#,algorithm,word-boundaries,C#,Algorithm,Word Boundaries,我想发展（没有专业培训）我对执行摘要的推理背后的一套公理：以下内容故意过于简化，对此表示抱歉。我尽量简短地回答这个问题第1部分：了解学习是如何工作的。目前，我认为，并且必须意识到语言，肌肉记忆和现有的语音字母表将建立语音。口音只是随着时间的推移通过语音字母同化自然形成的使用谷歌，我发现，它有可能被用于语音符号同化。另一方面，肌肉记忆可以通过重复动作轻松训练。如果一个人年龄在23-24岁，手上有很多无法理解的时间，这是最有效的，因为失去注意力会显著降低有效的学习曲线梯度。这种方法可能会

我想发展（没有专业培训）

我对执行摘要的推理背后的一套公理：以下内容故意过于简化，对此表示抱歉。我尽量简短地回答这个问题

第1部分：了解学习是如何工作的。目前，我认为，并且必须意识到语言，肌肉记忆和现有的语音字母表将建立语音。口音只是随着时间的推移通过语音字母同化自然形成的

使用谷歌，我发现，它有可能被用于语音符号同化。另一方面，肌肉记忆可以通过重复动作轻松训练。如果一个人年龄在23-24岁，手上有很多无法理解的时间，这是最有效的，因为失去注意力会显著降低有效的学习曲线梯度。这种方法可能会被优化，以便进行冲洗

第2部分：设计行为模式

寻找一个流利的演讲者，我想让他听起来像我
区分目标重音音素和音素
训练肌肉记忆以产生目标口音

第三部分：寻找一个流利的演讲者，我想让他听起来像我的口音。 Youtube是一个强大的免费资源。示例音频，我很难选择：高清

我并不介意，这是一个高亢的女声

第4部分：区分目标重音音素和音素。这不是一项琐碎的任务——识别和判断通话是否正确。以及人类如何正确地说出有形文本。事实上，它看起来是如此复杂，以至于我不会费心自动化它，而只是将其用作基线

以下是上述音频样本中的第一首带有单词重音的美国IPA诗篇：

无意侵犯版权。图像是用（可选：）创建的

第5部分：训练肌肉记忆以产生目标口音。尽管尝试模拟和归档同步很有趣，但我更喜欢构建一个工具，将单词提取为音频文件。所以我可以使用winamp或ipod循环和洗牌我想要的单词

我想，我可以使用MS Expression编码器来实现这一点

问题: 如果给定一个音频文件（例如wav格式，大小<32mb）及其文本等价物（有限个字，例如2000），那么如何将其拆分为多个文件，每个文件包含一个字。Word可以包含一些多余的空白，边界检查可以由用户批准。如果不准确，那么最好的方法是什么，以获得良好的单词边界估计

主要目的是减少我将要做的工作，如果这是手动完成的。

首先，我将通过在信号上运行FFT将信号从时域转换为频域。这可能允许您将文本中的某些辅音与fft中的宽带噪声相匹配。这里的问题是，你不想做完全的语音识别，只想找到信号与文本的最佳匹配。（我在大学时也做过类似的文档图像高亮处理——因为我已经有了文本，所以不需要使用OCR）。我的猜测是，寻找振幅的下降并不会对你有多大帮助，因为有些词会相互碰撞

下面是我第一次尝试的方法：

分析文本/IPA中以辅音开头的单词，这些单词在频谱中形成易于识别的模式

从高阈值开始，检测模式的实例

降低阈值，直到获得正确数量的实例，并且实例之间的相对距离与您对文本距离的估计相匹配

（如有可能，请在此处获取拆分点的用户验证）

这应该会给你一组希望很短的短语和谱块

使用另一种特征检测方法将这些块分割为单词

继续，直到你只有一个单词

我相信这是可以推广的，但我就是这样尝试的

检测单词边界是一项极其复杂的任务！我不知道您是否对此进行了更多的研究，但请参见Saffran等人（1996年）。分词：分布线索的作用。

对于许多语言，也有许多语言产生的“小体”，因此，与其使用新人，我将研究语言学文献中关于检测单词边界的工作。

关于你的问题领域的信息可能有点太多了，但仍然是一个好问题。您是否已经研究过或正在考虑过任何现有的语音检测解决方案或算法？这只是解决方案的一部分，但快速傅立叶变换（FFT）和边缘检测（通常用于图像处理）可能是需要研究的问题。另外，言语可能与歌唱有显著不同的声音特征。可能的重复你能找到解决这个问题的方法吗？我正在寻找类似问题的答案-您的反馈将是有价值的。