Nlp 短文本分类

Nlp 短文本分类,nlp,classification,messages,Nlp,Classification,Messages,我即将开始一个项目,我的最终目标是将短文本分类为类:“可能对访问X地点感兴趣”:“不感兴趣或中立”。地点由一组关键词描述(如膳食或“中国食品”等里程类型)。所以,理想情况下,我需要一些基于短文本分析的方法来建模用户的欲望——然后根据欲望分数或欲望概率进行分类——这个领域是否有最先进的技术?谢谢这个问题与文本情感分析完全相同。但是,与传统的二进制分类不同,您似乎有一个“中立”的观点。情绪分析的最新进展高度依赖于领域。例如,在电影分类方面表现出色的技术在商业产品上的表现就不太好 此外,甚至特征选择也

我即将开始一个项目,我的最终目标是将短文本分类为类:“可能对访问X地点感兴趣”:“不感兴趣或中立”。地点由一组关键词描述(如膳食或“中国食品”等里程类型)。所以,理想情况下,我需要一些基于短文本分析的方法来建模用户的欲望——然后根据欲望分数或欲望概率进行分类——这个领域是否有最先进的技术?谢谢

这个问题与文本情感分析完全相同。但是,与传统的二进制分类不同,您似乎有一个“中立”的观点。情绪分析的最新进展高度依赖于领域。例如,在电影分类方面表现出色的技术在商业产品上的表现就不太好

此外,甚至特征选择也高度依赖于域。例如,Unigram可以很好地用于电影评论分类,但Unigram和Bigram的组合在分类twitter文本方面表现更好

我最好的建议是使用不同的功能“玩一玩”。因为你在看短文,推特可能是一个很好的激励例子。我会以单字和双字作为我的特征。精确的算法不是很重要。SVM通常在参数调整正确的情况下表现良好。在对更大的数据集进行实验之前,使用少量保留的数据来调整这些参数

这个问题更有趣的部分是排名!“纯度分数”最近在以下论文中用于此目的(我认为它们是相当先进的):

  • 情绪总结:评估和学习用户偏好。勒曼、布莱尔·戈登森和麦当劳。每一个。2009年
  • 网络衍生极性词汇的可行性。维利科维奇、布莱尔·戈登森、汉南和麦克唐纳。NAACL。2010年