Machine learning 区分意思相同但使用不同单词组合的句子

Machine learning 区分意思相同但使用不同单词组合的句子,machine-learning,nlp,deep-learning,Machine Learning,Nlp,Deep Learning,我正在努力学习自然语言处理和一个被一个开放式问题困住的问题。我如何把意思相同的句子拼凑在一起。可以有一组有限的句子具有相同的意思。我使用什么样的算法来加入它们 例如:考虑下面的句子: There is a man. There is a lion. The lion will chase the man on seeing him. If the lion catches the man he dies. There is a man and a lion. If the lion catch

我正在努力学习自然语言处理和一个被一个开放式问题困住的问题。我如何把意思相同的句子拼凑在一起。可以有一组有限的句子具有相同的意思。我使用什么样的算法来加入它们

例如:考虑下面的句子:

There is a man. There is a lion. The lion will chase the man on seeing him. If the lion catches the man he dies.

There is a man and a lion. If the lion catches the man he dies. The lion will chase the man if he sees him.

You have a lion that chases men on seeing them. There is one man. If the lion catches the man he dies.
这些句子基本上都是这样说的:

 1 Lion. 1 Man. Lions chase men. If lion catches men the man dies.
我无法专注于一类机器学习或深度学习算法,这将帮助我实现类似的目标。请为我指明正确的方向,或者为我指出一些足以实现这一目标的算法

另一个重要因素是具有可扩展的解决方案。可能有很多这样的句子。然后呢

一种可能的解决办法是:
使用词性和句子中单词之间的关系作为一些机器学习算法的特征。但这在一大组句子中是否可行?我们需要考虑更多的事情吗?

< P>一个基于深度学习的解决方案是使用(理想地应该用固定维向量表示一个词,使得类似的词在嵌入空间中接近,甚至向量运算,如<代码>德国-柏林=意大利-罗马<代码> >两种著名的单词嵌入技术是和,另一种选择是用一个固定维向量表示一个句子,这样类似的句子就位于嵌入空间中,检查。到目前为止,我们只尝试以更具语义的数字方式表示文本(单词/句子),下一步是捕获当前上下文(段落、文档)的含义,一种非常简单的方法是仅平均单词/句子嵌入(您必须尝试这一方法,看看它是否有效),更好的方法是使用某种序列模型,如(实际或)捕获之前说过的内容。使用序列模型的问题是它需要监督(你应该有一个标记的数据,但如果你没有,我猜就是这样),然后,只需在设置中使用序列模型,并在最后一个时间步骤(即在读取最后一个单词或聚合单词嵌入(如果您使用naive方法)获取RNN/GRU/LSTM的隐藏表示。一旦有了隐藏表示,您可以应用任何聚类技术对不同的段落进行聚类(您必须找到合适的),或者您可以手动应用一些距离度量,并为类似的段落定义或学习一个阈值,以便将其归类为一类。

非常感谢。我会调查这些。