Python 3.x 回归分析在词袋中的应用
我有一个文本文档,并清理了文本。现在我有一个单词列表,我想应用回归,但我不知道怎么做。有人能帮忙吗?Python 3.x 回归分析在词袋中的应用,python-3.x,machine-learning,regression,Python 3.x,Machine Learning,Regression,我有一个文本文档,并清理了文本。现在我有一个单词列表,我想应用回归,但我不知道怎么做。有人能帮忙吗? 我可以使用单词列表中的其他机器学习算法吗???请提供您所做预测的详细信息 一般情况下(使用scikit学习): 步骤1:使用Snowball词干分析器对单词进行词干处理 步骤2:使用这些解析的数据创建特性和标签培训和测试集 步骤3:使用tfidfvectorizer将文本矢量化转换为数字列表 第四步:由于这将是一个庞大的功能集,我们需要使用selectpercentile来选择前10个(或任何您
我可以使用单词列表中的其他机器学习算法吗???请提供您所做预测的详细信息 一般情况下(使用scikit学习): 步骤1:使用Snowball词干分析器对单词进行词干处理 步骤2:使用这些解析的数据创建特性和标签培训和测试集 步骤3:使用tfidfvectorizer将文本矢量化转换为数字列表 第四步:由于这将是一个庞大的功能集,我们需要使用selectpercentile来选择前10个(或任何您想要的)百分位数,以删除权重较小的功能 现在,您可以将功能集用于任何目的 希望这有帮助:) PS:您需要对nltk和矢量器进行一些研究,以获得适当的参数和调整 非常感谢您的重播 我上传了一个excel文件中的示例 可以看出,有两列带有分类值,一列带有数值(0非常糟糕,10非常优秀) 所以我想做的是根据人们给出的最低/最高分数来预测 分数将成为标签 但我不知道是否有可能这样做 我确实尝试只使用文本注释(产品的改进)来提取未来/标签,只是为了看看它是否合理,但是当我提取特征时,我不知道应该根据特征集预测什么 致意:-)