Nlp 如何选择特征选择算法?-建议

Nlp 如何选择特征选择算法?-建议,nlp,nltk,semantic-analysis,Nlp,Nltk,Semantic Analysis,有没有一篇研究论文/一本书我可以读,它可以告诉我什么样的特征选择算法最有效 我试图简单地将twitter消息识别为pos/neg(首先)。我从基于频率的特征选择开始(从NLTK书籍开始),但很快意识到,对于类似的问题,不同的人选择了不同的算法 虽然我可以尝试基于频率、互信息、信息增益和各种其他算法,但列表似乎无穷无尽。。我想知道是否有一个有效的方法,然后试错 任何建议上学期我上了一门NLP课程,很明显,情绪分析是没有人真正知道如何做好的事情。当然,在无监督的情况下进行学习更加困难 关于这一点,有

有没有一篇研究论文/一本书我可以读,它可以告诉我什么样的特征选择算法最有效

我试图简单地将twitter消息识别为pos/neg(首先)。我从基于频率的特征选择开始(从NLTK书籍开始),但很快意识到,对于类似的问题,不同的人选择了不同的算法

虽然我可以尝试基于频率、互信息、信息增益和各种其他算法,但列表似乎无穷无尽。。我想知道是否有一个有效的方法,然后试错


任何建议

上学期我上了一门NLP课程,很明显,情绪分析是没有人真正知道如何做好的事情。当然,在无监督的情况下进行学习更加困难

关于这一点,有很多研究正在进行,其中一些是商业性的,因此不向公众开放。我不能给你指出任何研究论文,但我们用于本课程的那本书是()。这就是说,这本书涵盖了大量的材料,可能不是找到解决这个特定问题的最快方法

我唯一能告诉你的另一件事是尝试谷歌搜索,可能在scholar.google.com上搜索“情绪分析”或“观点挖掘”

看看NLTK
电影评论
语料库。评论已经进行了pos/neg分类,可能会帮助您培训分类器。尽管你在推特上找到的语言可能与这些语言非常不同


最后,请在这里发布任何成功(或失败)。这个问题稍后肯定会出现。

不幸的是,在处理机器学习时,没有什么灵丹妙药。它通常被称为定理。基本上,许多算法都能解决一个问题,有些算法在某些问题上做得更好,而在另一些问题上做得更差。总的来说,他们的表现都差不多。对于给定的数据集,相同的特征集可能导致一种算法性能更好,而另一种算法性能更差。对于不同的数据集,情况可能完全相反


通常我所做的是挑选一些在类似任务中对其他人有用的特征选择算法,然后从这些算法开始。如果我使用我最喜欢的分类器得到的性能是可以接受的,那么再搜索半个百分点可能不值得我花时间。但是如果不能接受,那么是时候重新评估我的方法,或者寻找更多的功能选择方法了。

你试过我推荐的关于上一个问题的书了吗?它可以在网上免费获得,并且完全是关于你正在处理的任务:由彭和李撰写。第4章(“提取和分类”)正是您需要的

这本书是否有任何附带的代码,或者它是理论重的?它是相当理论重的,主要关注方法的数学背景,而不是它们的实现。我在谷歌图书上找到的,你可以在那里浏览一下。我将把这个链接添加到我原来的帖子中。我不知道它是免费的——我只是看到了这个问题并找到了pdf——我想这可能很有趣——当我在亚马逊上看到99美元的价格标签时,我有点泄气——谢谢你的帮助。我现在正在读……不客气。顺便说一句,既然你有超过15点的声誉,你也可以投票了,呵呵…;-)