Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/asp.net-mvc-3/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 文档分类的最佳特征选择算法_Nlp_Information Retrieval_Text Mining_Tf Idf_Feature Selection - Fatal编程技术网

Nlp 文档分类的最佳特征选择算法

Nlp 文档分类的最佳特征选择算法,nlp,information-retrieval,text-mining,tf-idf,feature-selection,Nlp,Information Retrieval,Text Mining,Tf Idf,Feature Selection,我正在从事一个文档分类项目。我使用tf idf和质心算法。但我需要一本字典,用于使用该算法。我曾试图通过编辑词典来获取信息,但我认为这还不够令人满意。你对比信息增益更好的特征选择算法有什么建议吗?根据我的经验,没有最佳特征选择方法。适用于一个数据集的算法可能对其他数据集的性能很差,因此这主要是一个实验问题。尝试一些,看看哪个适合你的问题设置。已经发表了几篇关于这一主题的文章,当你有时间的时候值得一读。以我的经验,没有最佳的特征选择方法。适用于一个数据集的算法可能对其他数据集的性能很差,因此这主要

我正在从事一个文档分类项目。我使用tf idf和质心算法。但我需要一本字典,用于使用该算法。我曾试图通过编辑词典来获取信息,但我认为这还不够令人满意。你对比信息增益更好的特征选择算法有什么建议吗?

根据我的经验,没有最佳特征选择方法。适用于一个数据集的算法可能对其他数据集的性能很差,因此这主要是一个实验问题。尝试一些,看看哪个适合你的问题设置。已经发表了几篇关于这一主题的文章,当你有时间的时候值得一读。

以我的经验,没有最佳的特征选择方法。适用于一个数据集的算法可能对其他数据集的性能很差,因此这主要是一个实验问题。尝试一些,看看哪个适合你的问题设置。已经发表了几篇关于这个主题的文章,当你有时间的时候值得一读。

还值得指出的是,在很多情况下,功能选择是不必要的。只需使用所有单词,使用对大特征空间具有鲁棒性的分类器(例如线性SVM/L1正则化逻辑回归)。要解决的问题少了一个,而且这是一个你需要明确证明不使用的基线。

同样值得指出的是,在许多情况下,功能选择是不必要的。只需使用所有单词,使用对大特征空间具有鲁棒性的分类器(例如线性SVM/L1正则化逻辑回归)。要解决的问题少了一个,这是一个基线,您需要明确证明不使用它是合理的。

我不同意这种评估。降维是一种在机器学习中开发更通用模型的技术,无论分类器的鲁棒性如何。此外,它还降低了运行模型等的计算成本。如果不是这样,那么也许我同意你的评论。我不同意这个评估。降维是一种在机器学习中开发更通用模型的技术,无论分类器的鲁棒性如何。此外,它还降低了运行模型等的计算成本。如果不是这样的话,也许我同意你的意见。