Regex AI:网站希望Wit使用什么样的过程来训练自然语言

Regex AI:网站希望Wit使用什么样的过程来训练自然语言,regex,nlp,artificial-intelligence,wit.ai,Regex,Nlp,Artificial Intelligence,Wit.ai,我正在从事一个项目,我想在那里实现对自然语言的理解。不过,我将从小的方面开始,并希望对其进行特定查询方面的培训 比如说,一开始我可能会说: 歌曲 然后,如果它看到像“Kanye Wests songs”这样的句子,它可以与之相匹配 但是,我想给它一些额外的句子,可能意味着同样的事情,这样它最终能够学会预测未知的句子到我训练它的集合中 所以我可能会加上一句话:“Songs by 当然,这将是一个名称数据库,它可以再次匹配 我发现了一个整洁的网站,Wit.ai,它做了一些我所说的事情。然而,他们将他

我正在从事一个项目,我想在那里实现对自然语言的理解。不过,我将从小的方面开始,并希望对其进行特定查询方面的培训

比如说,一开始我可能会说:

歌曲

然后,如果它看到像“Kanye Wests songs”这样的句子,它可以与之相匹配

但是,我想给它一些额外的句子,可能意味着同样的事情,这样它最终能够学会预测未知的句子到我训练它的集合中

所以我可能会加上一句话:“Songs by

当然,这将是一个名称数据库,它可以再次匹配

我发现了一个整洁的网站,Wit.ai,它做了一些我所说的事情。然而,他们将他们的匹配解析为一个意图,我希望将其匹配到一个简化的查询,或者更好地匹配到一个类似数据库的查询(如facebook graph search)

我知道上下文无关语法可以很好地解决这个问题(还有其他的吗?),但是有什么好的方法可以训练几个CFG,我说它们有相似的意思,然后当它看到未知的句子时,它可以尝试并预测

任何想法都很好


基本上,我希望能够将一个自然语言句子转换成某种形式,让我的系统更好地理解并以一种好的方式呈现给用户。不确定是否有更好的stackexchange!

首先,我认为这非常适合这个问题(我检查了区域51,NLP没有stackexchange)

假设您已经熟悉PCFG语法的常规培训,我将介绍一些可能帮助您实现目标的细节:

在语料库上训练的任何语法都将依赖于该训练语料库中的单词。在PCFG训练中,未知单词的表现不佳是一个众所周知的问题,在几乎所有概率学习框架中都是如此。然而,我们可以做的是将该问题视为一个释义问题。毕竟,您希望分组还有其他意思相同的句子,对吗

在最近的研究中,检测具有相同(或相似)含义的句子或短语采用了一种称为分布相似性的技术。该技术旨在改进对未知共现的概率估计。其基本概念是

在语料库中,在同一上下文中,具有相同分布和相同词汇集的单词或短语往往具有相似的含义

您可以仅使用固有特性(例如PCFG中的产生式规则)或使用其他语义知识(例如本体论等)支持此类特性。使用额外的语义知识可以生成具有类似含义的更复杂的句子/短语,但此类方法通常仅适用于特定领域。因此,如果您希望您的系统仅适用于音乐,这是一个好主意

复制实际的分布相似性算法将使这个答案非常长,因此这里有一个链接到一篇优秀的文章:

由马德纳尼和多尔创作


对于您的工作,您只需要阅读第3.2节:使用单一语言语料库进行释义。我相信本文中标记为“算法1”的算法将对您有用。但是,我不知道有任何公开可用的工具/代码可以做到这一点。

这看起来非常有用!谢谢。您知道有任何开源软件吗这方面的实现?不,恐怕不是。事实上,我自己已经为分布相似性编写了一个通用框架。但它不太可能很快处于可用状态:-(…同时,如果你碰巧找到了一个实现,请在这里分享你的发现。我一定会的!谢谢你的帮助。我会看看我能从那篇文章中得到什么:)@Jonovono你最终使用了什么框架?或者你建立了自己的框架?