NLP:有效比较和识别文本之间趋势的方法

NLP:有效比较和识别文本之间趋势的方法,nlp,text-mining,Nlp,Text Mining,是否有算法或方法可以评估文本项之间的共同趋势/主题 例如,假设有四个数据点(文本条目): “我发现今天的学校压力很大” “物理考试很容易。” “我的物理测试一点也不具挑战性” “每个人都很早就离开了,因为物理考试很简单,我们很早就完成了。” 根据这四个条目,第一个条目是异常值,与其他条目无关,但其他三个条目提到了“物理测试”是多么容易(更一般地说,其他三个条目表达了对“物理测试”的积极情绪) 有没有办法提取相关句子之间的共同线索?这些句子是完全开放式的,不局限于简单地表达对某个物体的感情——

是否有算法或方法可以评估文本项之间的共同趋势/主题

例如,假设有四个数据点(文本条目):

  • “我发现今天的学校压力很大”
  • “物理考试很容易。”
  • “我的物理测试一点也不具挑战性”
  • “每个人都很早就离开了,因为物理考试很简单,我们很早就完成了。”
根据这四个条目,第一个条目是异常值,与其他条目无关,但其他三个条目提到了“物理测试”是多么容易(更一般地说,其他三个条目表达了对“物理测试”的积极情绪)

有没有办法提取相关句子之间的共同线索?这些句子是完全开放式的,不局限于简单地表达对某个物体的感情——它们可以谈论任何东西


我知道这是一个相当广泛的问题,但我想我会问一下,看看人们是否知道现有的解决方案或过去人们解决这个问题的方法。

一个可能的解决方案是——首先生成句子表示法(Sent2Vec),然后比较这些表示法

有许多方法可以生成嵌入英语句子的句子。流行的方法之一是。只需将句子转换为向量,然后使用余弦相似度来比较句子


您还可以使用这些句子嵌入来训练神经网络以完成目标任务。

这看起来很有趣-谢谢!Sent2Vec过程似乎有助于完成我任务的第一部分-但我也在寻找一种方法来真正确定句子之间的具体关系(即它们都引用“物理测试”和形容词“容易”)@abagshaw然后你需要对句子进行分析并提取名词短语,然后生成短语嵌入并比较所有可能的短语对。你应该有一些直觉来确定关键字之间的关系,然后!这就是我所想的……但我不确定这是否能够扩展到比较成千上万个句子。@abagshaw这取决于模型设计。如果你有更多的例子,这是一个好消息,因为你可以训练一个深层次的神经模型来完成你的目标任务!