Nlp 我如何量化两个术语含义的差异?例如“鸟”和“椅子”

Nlp 我如何量化两个术语含义的差异?例如“鸟”和“椅子”,nlp,semantics,ontology,Nlp,Semantics,Ontology,编辑: 我有一些术语/主题,我想量化这些术语/主题在含义或领域上彼此之间的差异。以下是我想要应用它的用例: 现在我有来自twitter的关于一场板球比赛的数据集,推特上有这场比赛的标签。我想看看还有多少与板球比赛无关的话题出现在这样的推文中。例如,如果有人开始在这样一条推特上谈论叙利亚避难所,那么这条推特与板球比赛的主题就不太相关。 我的基本方法是从这些推文中提取主题,然后确定哪些主题与板球领域密切相关,哪些与板球领域不密切相关。从统计上看,您可以查看,以及类似的模型。这里的差异可以是向量空间中

编辑: 我有一些术语/主题,我想量化这些术语/主题在含义或领域上彼此之间的差异。以下是我想要应用它的用例:

现在我有来自twitter的关于一场板球比赛的数据集,推特上有这场比赛的标签。我想看看还有多少与板球比赛无关的话题出现在这样的推文中。例如,如果有人开始在这样一条推特上谈论叙利亚避难所,那么这条推特与板球比赛的主题就不太相关。
我的基本方法是从这些推文中提取主题,然后确定哪些主题与板球领域密切相关,哪些与板球领域不密切相关。

从统计上看,您可以查看,以及类似的模型。这里的差异可以是向量空间中两点之间的距离欧几里德或余弦相似性。简言之,您将语料库加载到一个引擎中,该引擎创建了一个n维空间,将单词、有时是文档或字符n-gram作为空间中的点,这样,在类似上下文中出现的单词就具有紧密的表示向量

大多数这种表述的一个缺点是反义词常常彼此接近:例如在《我爱你》和《我恨你》中,爱和恨的上下文非常相似

从语义的角度来看,添加标记本体时,可以使用结构化的知识库或本体。一种选择是在分类法中定义这两个术语之间的距离。您可以检查它们是否与同级显示在同一级别,一个是另一个的父级或其他关系。我认为最直接的方法是为每个关系手动定义权重,但可能用于图遍历和聚类的统计方法也适用


对于类,您可以使用您拥有的实例数量以及这些实例之间的任何关系。例如,您可以通过具有关系的鸟和椅子的实例数来计算鸟和椅子之间的距离。希望person和chair会更近,因为大多数person对象都有一个指定的chair对象。

要快速查看,您可以使用bird-noun-1和chair-noun-1以及wordnet,网址为: 它给你:

Resnik 0.315625756544

林0.0574161071905

蒋和康拉德0.0964964414156


python代码:

这个问题听起来比Stackoverflow中NLP的范围更深。也许你可以给我们你的量化用例。嗨@Mehdi,现在我有来自twitter的数据集。推特是关于板球比赛的。我想知道还有多少其他的话题在这样的推文中出现。所以基本上我会从tweet中提取主题,然后看看这些主题与板球领域有多无关。谢谢。是否存在任何现有的分类法和本体论?据我所知,本体论是特定于领域的,对于新的领域,你必须创建新的本体论,你可以查看以前的Freebase,或者