NLP：有效比较和识别文本之间趋势的方法_Nlp_Text Mining

NLP：有效比较和识别文本之间趋势的方法

nlp

NLP：有效比较和识别文本之间趋势的方法,nlp,text-mining,Nlp,Text Mining,是否有算法或方法可以评估文本项之间的共同趋势/主题例如，假设有四个数据点（文本条目）： “我发现今天的学校压力很大” “物理考试很容易。” “我的物理测试一点也不具挑战性” “每个人都很早就离开了，因为物理考试很简单，我们很早就完成了。” 根据这四个条目，第一个条目是异常值，与其他条目无关，但其他三个条目提到了“物理测试”是多么容易（更一般地说，其他三个条目表达了对“物理测试”的积极情绪）有没有办法提取相关句子之间的共同线索？这些句子是完全开放式的，不局限于简单地表达对某个物体的感情——

是否有算法或方法可以评估文本项之间的共同趋势/主题

例如，假设有四个数据点（文本条目）：

“我发现今天的学校压力很大”
“物理考试很容易。”
“我的物理测试一点也不具挑战性”
“每个人都很早就离开了，因为物理考试很简单，我们很早就完成了。”

根据这四个条目，第一个条目是异常值，与其他条目无关，但其他三个条目提到了“物理测试”是多么容易（更一般地说，其他三个条目表达了对“物理测试”的积极情绪）

有没有办法提取相关句子之间的共同线索？这些句子是完全开放式的，不局限于简单地表达对某个物体的感情——它们可以谈论任何东西

我知道这是一个相当广泛的问题，但我想我会问一下，看看人们是否知道现有的解决方案或过去人们解决这个问题的方法。

一个可能的解决方案是——首先生成句子表示法（Sent2Vec），然后比较这些表示法

有许多方法可以生成嵌入英语句子的句子。流行的方法之一是。只需将句子转换为向量，然后使用余弦相似度来比较句子

您还可以使用这些句子嵌入来训练神经网络以完成目标任务。

这看起来很有趣-谢谢！Sent2Vec过程似乎有助于完成我任务的第一部分-但我也在寻找一种方法来真正确定句子之间的具体关系（即它们都引用“物理测试”和形容词“容易”）@abagshaw然后你需要对句子进行分析并提取名词短语，然后生成短语嵌入并比较所有可能的短语对。你应该有一些直觉来确定关键字之间的关系，然后！这就是我所想的……但我不确定这是否能够扩展到比较成千上万个句子。@abagshaw这取决于模型设计。如果你有更多的例子，这是一个好消息，因为你可以训练一个深层次的神经模型来完成你的目标任务！