Machine learning 区分意思相同但使用不同单词组合的句子_Machine Learning_Nlp_Deep Learning

Machine learning 区分意思相同但使用不同单词组合的句子

machine-learning nlp deep-learning

Machine learning 区分意思相同但使用不同单词组合的句子,machine-learning,nlp,deep-learning,Machine Learning,Nlp,Deep Learning,我正在努力学习自然语言处理和一个被一个开放式问题困住的问题。我如何把意思相同的句子拼凑在一起。可以有一组有限的句子具有相同的意思。我使用什么样的算法来加入它们例如：考虑下面的句子： There is a man. There is a lion. The lion will chase the man on seeing him. If the lion catches the man he dies. There is a man and a lion. If the lion catch

我正在努力学习自然语言处理和一个被一个开放式问题困住的问题。我如何把意思相同的句子拼凑在一起。可以有一组有限的句子具有相同的意思。我使用什么样的算法来加入它们

例如：考虑下面的句子：

There is a man. There is a lion. The lion will chase the man on seeing him. If the lion catches the man he dies.

There is a man and a lion. If the lion catches the man he dies. The lion will chase the man if he sees him.

You have a lion that chases men on seeing them. There is one man. If the lion catches the man he dies.

这些句子基本上都是这样说的：

 1 Lion. 1 Man. Lions chase men. If lion catches men the man dies.

我无法专注于一类机器学习或深度学习算法，这将帮助我实现类似的目标。请为我指明正确的方向，或者为我指出一些足以实现这一目标的算法

另一个重要因素是具有可扩展的解决方案。可能有很多这样的句子。然后呢

一种可能的解决办法是：

使用词性和句子中单词之间的关系作为一些机器学习算法的特征。但这在一大组句子中是否可行？我们需要考虑更多的事情吗？

< P>一个基于深度学习的解决方案是使用（理想地应该用固定维向量表示一个词，使得类似的词在嵌入空间中接近，甚至向量运算，如<代码>德国-柏林=意大利-罗马<代码> >两种著名的单词嵌入技术是和，另一种选择是用一个固定维向量表示一个句子，这样类似的句子就位于嵌入空间中，检查。到目前为止，我们只尝试以更具语义的数字方式表示文本（单词/句子），下一步是捕获当前上下文（段落、文档）的含义，一种非常简单的方法是仅平均单词/句子嵌入（您必须尝试这一方法，看看它是否有效），更好的方法是使用某种序列模型，如（实际或）捕获之前说过的内容。使用序列模型的问题是它需要监督（你应该有一个标记的数据，但如果你没有，我猜就是这样），然后，只需在设置中使用序列模型，并在最后一个时间步骤（即在读取最后一个单词或聚合单词嵌入（如果您使用naive方法）获取RNN/GRU/LSTM的隐藏表示。一旦有了隐藏表示，您可以应用任何聚类技术对不同的段落进行聚类（您必须找到合适的），或者您可以手动应用一些距离度量，并为类似的段落定义或学习一个阈值，以便将其归类为一类。

非常感谢。我会调查这些。