Machine learning 机器学习挑战:学习英语发音

Machine learning 机器学习挑战:学习英语发音,machine-learning,phonetics,Machine Learning,Phonetics,假设您希望获取如下所示的输入: ABERRATION AE2 B ER0 EY1 SH AH0 N ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z ABERT AE1 B ER0 T ABET AH0 B EH1 T ABETTED AH0 B EH1 T IH0 D ABETTING AH0 B EH1 T IH0 NG ABEX EY1 B EH0 K S ABEYA

假设您希望获取如下所示的输入:

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S
(单词在左边,右边是一系列音素,)

你想把它作为一个机器学习系统的训练数据,这个系统会接受新单词,并猜测它们在英语中的发音

这对我来说不是很明显,至少因为没有一个固定大小的字母可以映射到一个音素。我有一种感觉,与马尔可夫链有关的东西可能是正确的方法


你将如何做到这一点?

不完全是我的领域,但可能会构建一个具有多个层次的神经网络-早期层次猜测单词分成连续音节,后期层次猜测所述音节的发音


对于数字数据,建立ANFIS学习神经网络相当简单,对于文字/语音数据,任务无疑要复杂好几个数量级。

这个问题称为字形到音素的转换,这是。谷歌搜索几篇文章。

你真的能拥有一个输出节点数量可变的神经网络吗?我相信如此快速的谷歌搜索表明,单独训练网络,然后结合起来实现多个输出更容易。这个问题绝非小事,我并不声称能够真正解决它。您真的需要可变数量的输出节点吗?除非音素的数量大得令人望而却步,否则尽可能多的输出节点就是音素。需要记住的一点是,CMU和moby数据都是针对美式发音的,对于英式或其他英语变体,没有一套非常好的音素。事实上,即使是CMU和moby数据也有不同的音素集。莫比发音器在这里: