Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ssis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 回归分析在词袋中的应用_Python 3.x_Machine Learning_Regression - Fatal编程技术网

Python 3.x 回归分析在词袋中的应用

Python 3.x 回归分析在词袋中的应用,python-3.x,machine-learning,regression,Python 3.x,Machine Learning,Regression,我有一个文本文档,并清理了文本。现在我有一个单词列表,我想应用回归,但我不知道怎么做。有人能帮忙吗? 我可以使用单词列表中的其他机器学习算法吗???请提供您所做预测的详细信息 一般情况下(使用scikit学习): 步骤1:使用Snowball词干分析器对单词进行词干处理 步骤2:使用这些解析的数据创建特性和标签培训和测试集 步骤3:使用tfidfvectorizer将文本矢量化转换为数字列表 第四步:由于这将是一个庞大的功能集,我们需要使用selectpercentile来选择前10个(或任何您

我有一个文本文档,并清理了文本。现在我有一个单词列表,我想应用回归,但我不知道怎么做。有人能帮忙吗?
我可以使用单词列表中的其他机器学习算法吗???

请提供您所做预测的详细信息

一般情况下(使用scikit学习):

步骤1:使用Snowball词干分析器对单词进行词干处理

步骤2:使用这些解析的数据创建特性和标签培训和测试集

步骤3:使用tfidfvectorizer将文本矢量化转换为数字列表

第四步:由于这将是一个庞大的功能集,我们需要使用selectpercentile来选择前10个(或任何您想要的)百分位数,以删除权重较小的功能

现在,您可以将功能集用于任何目的

希望这有帮助:)

PS:您需要对nltk和矢量器进行一些研究,以获得适当的参数和调整

非常感谢您的重播 我上传了一个excel文件中的示例 可以看出,有两列带有分类值,一列带有数值(0非常糟糕,10非常优秀)

所以我想做的是根据人们给出的最低/最高分数来预测 分数将成为标签 但我不知道是否有可能这样做

我确实尝试只使用文本注释(产品的改进)来提取未来/标签,只是为了看看它是否合理,但是当我提取特征时,我不知道应该根据特征集预测什么

致意:-)