WordNet python中的词义消歧

WordNet python中的词义消歧,python,nlp,wordnet,sentiment-analysis,word-sense-disambiguation,Python,Nlp,Wordnet,Sentiment Analysis,Word Sense Disambiguation,我目前正在twitter上做情绪分析的研究。 我想结合预定义的词典资源,如sentiwordnet极性分数。然后进行机器学习。 问题是在获得sentiwordnet的正确分数时,以前的工作总是简单地根据词义的正负极性总分进行选择。 我的意思是,例如,“疯狂”这个词可以出现3倍于否定词,2倍于肯定词。 以前的大多数工作将自动平均每个极性。 所以我想在得到分数之前消除单词的歧义,这样我们就可以真正使用sentiwordnet了。 我是通过比较目标句和修饰句的相似性来思考的。。 有什么方法可以比较吗?

我目前正在twitter上做情绪分析的研究。 我想结合预定义的词典资源,如sentiwordnet极性分数。然后进行机器学习。 问题是在获得sentiwordnet的正确分数时,以前的工作总是简单地根据词义的正负极性总分进行选择。 我的意思是,例如,“疯狂”这个词可以出现3倍于否定词,2倍于肯定词。 以前的大多数工作将自动平均每个极性。 所以我想在得到分数之前消除单词的歧义,这样我们就可以真正使用sentiwordnet了。 我是通过比较目标句和修饰句的相似性来思考的。。 有什么方法可以比较吗?你认为它会起作用吗? 如果没有,请分享你的想法

我是这个领域的新手,也是python程序员的新手,所以我真的需要你的建议。。
谢谢。

这是一个词义消歧问题,要让您的系统在任何给定的多词义单词上都能正常工作将是非常困难的。您可以尝试几种方法的组合来确定单词的正确含义:

词性标注将减少候选词义的数量

句子之间的余弦相似性和WordNet中每个词义的光泽

用途:它测量目标词及其周围词的不同词义之间的WordNet相似性

使用:数据库包含分配给每个WordNet感官的域标签,例如用于摇滚音乐感官的音乐。您可以比较gloss和句子中的域标签,而不是比较gloss和句子中的实际单词

表示光泽和句子不是通过单词本身,而是作为单词的平均共现向量。这样的向量可以使用大型文本语料库构建,最好是来自与正在消除歧义的文本相同的应用程序域。有多种技术可以细化这些共现向量tf-idf、PCA、SVD,您应该分别阅读它们


如果你的文本来自一个非常专业的领域,例如法律,那么准确度会更高。但是,如果你使用的是一般语言文本,那么你只能对那些在WordNet中不超过3-4个词义的多义词进行准确的判断,这是一个词义消歧问题,要让你的系统在任何给定的多义词上都能相当好地工作是非常困难的。您可以尝试几种方法的组合来确定单词的正确含义:

词性标注将减少候选词义的数量

句子之间的余弦相似性和WordNet中每个词义的光泽

用途:它测量目标词及其周围词的不同词义之间的WordNet相似性

使用:数据库包含分配给每个WordNet感官的域标签,例如用于摇滚音乐感官的音乐。您可以比较gloss和句子中的域标签,而不是比较gloss和句子中的实际单词

表示光泽和句子不是通过单词本身,而是作为单词的平均共现向量。这样的向量可以使用大型文本语料库构建,最好是来自与正在消除歧义的文本相同的应用程序域。有多种技术可以细化这些共现向量tf-idf、PCA、SVD,您应该分别阅读它们

如果你的文本来自一个非常专业的领域,例如法律,那么准确度会更高。但是,如果你使用的是一般语言文本,那么你可以期望只有那些在WordNet中不超过3-4个词义的多义词才具有良好的准确性