Machine learning 机器学习挑战：学习英语发音_Machine Learning_Phonetics

Machine learning 机器学习挑战：学习英语发音

machine-learning

Machine learning 机器学习挑战：学习英语发音,machine-learning,phonetics,Machine Learning,Phonetics,假设您希望获取如下所示的输入： ABERRATION AE2 B ER0 EY1 SH AH0 N ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z ABERT AE1 B ER0 T ABET AH0 B EH1 T ABETTED AH0 B EH1 T IH0 D ABETTING AH0 B EH1 T IH0 NG ABEX EY1 B EH0 K S ABEYA

假设您希望获取如下所示的输入：

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

（单词在左边，右边是一系列音素，）

你想把它作为一个机器学习系统的训练数据，这个系统会接受新单词，并猜测它们在英语中的发音

这对我来说不是很明显，至少因为没有一个固定大小的字母可以映射到一个音素。我有一种感觉，与马尔可夫链有关的东西可能是正确的方法

你将如何做到这一点？

不完全是我的领域，但可能会构建一个具有多个层次的神经网络-早期层次猜测单词分成连续音节，后期层次猜测所述音节的发音

对于数字数据，建立ANFIS学习神经网络相当简单，对于文字/语音数据，任务无疑要复杂好几个数量级。

这个问题称为字形到音素的转换，这是。谷歌搜索几篇文章。

你真的能拥有一个输出节点数量可变的神经网络吗？我相信如此快速的谷歌搜索表明，单独训练网络，然后结合起来实现多个输出更容易。这个问题绝非小事，我并不声称能够真正解决它。您真的需要可变数量的输出节点吗？除非音素的数量大得令人望而却步，否则尽可能多的输出节点就是音素。需要记住的一点是，CMU和moby数据都是针对美式发音的，对于英式或其他英语变体，没有一套非常好的音素。事实上，即使是CMU和moby数据也有不同的音素集。莫比发音器在这里：