带Tensorflow的IPA(国际音标)转录

带Tensorflow的IPA(国际音标)转录,tensorflow,nlp,linguistics,Tensorflow,Nlp,Linguistics,我正在考虑设计一个软件平台,帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示,大约有1000种语言从未被各自的说话者群体之外的人学习过 我的目标是利用TensorFlow创建一个平台,让语言学家能够更有效地研究和记录这些语言,并帮助他们为那些还没有书面系统的语言创建书面系统。他们目前完成这项任务的方法有三种:1)记录母语为英语的人用该语言交谈的情况;2)听录音并试图将其转录成IPA;3)从语音学角度,分析该语言的音位学和语音策略,最终为说话人创建一个书面系统 我提议的平台将把研究时间从

我正在考虑设计一个软件平台,帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示,大约有1000种语言从未被各自的说话者群体之外的人学习过

我的目标是利用TensorFlow创建一个平台,让语言学家能够更有效地研究和记录这些语言,并帮助他们为那些还没有书面系统的语言创建书面系统。他们目前完成这项任务的方法有三种:1)记录母语为英语的人用该语言交谈的情况;2)听录音并试图将其转录成IPA;3)从语音学角度,分析该语言的音位学和语音策略,最终为说话人创建一个书面系统

我提议的平台将把研究时间从最少一年缩短到最多六个月。在我开始之前,我有一些问题

培训TensorFlow将现场音频转录到IPA需要什么?这已经完成了吗?如果是的话,我将如何为这个项目利用以前的解决方案?使用TensorFlow这样的项目可能吗?如果不是,您建议改用什么?


我为这个问题的严重性道歉。我在机器学习领域没有太多经验,因为我刚刚开始这个项目的研究过程。感谢您的帮助

我想我会先回答这个问题。由于这个问题相当笼统,我的回答也必须相当笼统

  • 需要什么。至少你必须有一个大的预转录数据集。理想情况下,大量的口语音频映射到拼音字母表中的字符,因此系统可以学习单个字符的声音,而不是整个转录的单词。如果这样的数据集不存在,可以使用粒度较小的数据集,将单个单词映射到它们的转录本。然后你需要一个模型,这是用代码实现的实际的神经网络结构。最后,您需要一些计算资源。这不是你可以随便训练的东西,你要么需要在基于云的机器学习框架(比如谷歌云ML)中争取一些时间,要么在家里建造一台相当昂贵的机器来训练

  • 这样做了吗?我不知道。我不这么认为。已发表的论文报道了转录语音训练系统的不同程度的成功。例如,这里有一个例子,因为你想要抄写的字母表是专门为捕捉单词的发音而设计的,而不仅仅是写下单词,你可能会在训练这样一个模型时获得更大的成功

  • 是否可以使用TensorFlow。是的,很有可能。TensorFlow非常适合实现大多数现代深度学习体系结构。除非你最终为此设计了一些非常奇怪和非常原始的模型,否则TensorFlow应该可以正常工作


  • 编辑:在第1部分中经过一些思考后,您必须使用一个数据集将口语词映射到它们的转录本,因为我认为单独发音的同一个声音与在一个词中使用同一个声音时会有所不同。

    您与语言学家谈过这一点吗?音素识别可能比单词识别困难得多@Aaron技术上来说,这里是电话,不是音素,但不确定这是否能让它更好。。。