Nlp 文档分类的最佳特征选择算法
我正在从事一个文档分类项目。我使用tf idf和质心算法。但我需要一本字典,用于使用该算法。我曾试图通过编辑词典来获取信息,但我认为这还不够令人满意。你对比信息增益更好的特征选择算法有什么建议吗?根据我的经验,没有最佳特征选择方法。适用于一个数据集的算法可能对其他数据集的性能很差,因此这主要是一个实验问题。尝试一些,看看哪个适合你的问题设置。已经发表了几篇关于这一主题的文章,当你有时间的时候值得一读。以我的经验,没有最佳的特征选择方法。适用于一个数据集的算法可能对其他数据集的性能很差,因此这主要是一个实验问题。尝试一些,看看哪个适合你的问题设置。已经发表了几篇关于这个主题的文章,当你有时间的时候值得一读。还值得指出的是,在很多情况下,功能选择是不必要的。只需使用所有单词,使用对大特征空间具有鲁棒性的分类器(例如线性SVM/L1正则化逻辑回归)。要解决的问题少了一个,而且这是一个你需要明确证明不使用的基线。同样值得指出的是,在许多情况下,功能选择是不必要的。只需使用所有单词,使用对大特征空间具有鲁棒性的分类器(例如线性SVM/L1正则化逻辑回归)。要解决的问题少了一个,这是一个基线,您需要明确证明不使用它是合理的。我不同意这种评估。降维是一种在机器学习中开发更通用模型的技术,无论分类器的鲁棒性如何。此外,它还降低了运行模型等的计算成本。如果不是这样,那么也许我同意你的评论。我不同意这个评估。降维是一种在机器学习中开发更通用模型的技术,无论分类器的鲁棒性如何。此外,它还降低了运行模型等的计算成本。如果不是这样的话,也许我同意你的意见。Nlp 文档分类的最佳特征选择算法,nlp,information-retrieval,text-mining,tf-idf,feature-selection,Nlp,Information Retrieval,Text Mining,Tf Idf,Feature Selection,我正在从事一个文档分类项目。我使用tf idf和质心算法。但我需要一本字典,用于使用该算法。我曾试图通过编辑词典来获取信息,但我认为这还不够令人满意。你对比信息增益更好的特征选择算法有什么建议吗?根据我的经验,没有最佳特征选择方法。适用于一个数据集的算法可能对其他数据集的性能很差,因此这主要是一个实验问题。尝试一些,看看哪个适合你的问题设置。已经发表了几篇关于这一主题的文章,当你有时间的时候值得一读。以我的经验,没有最佳的特征选择方法。适用于一个数据集的算法可能对其他数据集的性能很差,因此这主要