Python 3.x 回归分析在词袋中的应用_Python 3.x_Machine Learning_Regression

Python 3.x 回归分析在词袋中的应用

python-3.x machine-learning

Python 3.x 回归分析在词袋中的应用,python-3.x,machine-learning,regression,Python 3.x,Machine Learning,Regression,我有一个文本文档，并清理了文本。现在我有一个单词列表，我想应用回归，但我不知道怎么做。有人能帮忙吗？我可以使用单词列表中的其他机器学习算法吗？？？请提供您所做预测的详细信息一般情况下（使用scikit学习）：步骤1：使用Snowball词干分析器对单词进行词干处理步骤2：使用这些解析的数据创建特性和标签培训和测试集步骤3：使用tfidfvectorizer将文本矢量化转换为数字列表第四步：由于这将是一个庞大的功能集，我们需要使用selectpercentile来选择前10个（或任何您

我有一个文本文档，并清理了文本。现在我有一个单词列表，我想应用回归，但我不知道怎么做。有人能帮忙吗？

我可以使用单词列表中的其他机器学习算法吗？？？

请提供您所做预测的详细信息

一般情况下（使用scikit学习）：

步骤1：使用Snowball词干分析器对单词进行词干处理

步骤2：使用这些解析的数据创建特性和标签培训和测试集

步骤3：使用tfidfvectorizer将文本矢量化转换为数字列表

第四步：由于这将是一个庞大的功能集，我们需要使用selectpercentile来选择前10个（或任何您想要的）百分位数，以删除权重较小的功能

现在，您可以将功能集用于任何目的

希望这有帮助：）

PS：您需要对nltk和矢量器进行一些研究，以获得适当的参数和调整

非常感谢您的重播我上传了一个excel文件中的示例可以看出，有两列带有分类值，一列带有数值（0非常糟糕，10非常优秀）

所以我想做的是根据人们给出的最低/最高分数来预测分数将成为标签但我不知道是否有可能这样做

我确实尝试只使用文本注释（产品的改进）来提取未来/标签，只是为了看看它是否合理，但是当我提取特征时，我不知道应该根据特征集预测什么

致意：-）