Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/machine-learning/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning SKLearn交叉验证:_Machine Learning_Classification_Scikit Learn_Document Classification - Fatal编程技术网

Machine learning SKLearn交叉验证:

Machine learning SKLearn交叉验证:,machine-learning,classification,scikit-learn,document-classification,Machine Learning,Classification,Scikit Learn,Document Classification,我正在进行文本分类,并将处理训练数据中未捕获的单词,这意味着该单词应被视为未知单词 有人知道如果训练数据中不存在某个单词,scikit的交叉验证是否会将其视为看不见的单词吗 或者scikit会将所有单词视为特征,即使它不在训练集中 如果您在包装了特征提取器(例如CountVectorizer或TfidfVectorizer)和分类器的管道上执行交叉验证,则所有操作都将自动开箱即用:仅在序列测试集中出现的特征将被忽略(不映射到向量表示中的维度) 有关如何使用词汇表属性将要素名称映射到中的标注的更多

我正在进行文本分类,并将处理训练数据中未捕获的单词,这意味着该单词应被视为未知单词

有人知道如果训练数据中不存在某个单词,scikit的交叉验证是否会将其视为看不见的单词吗


或者scikit会将所有单词视为特征,即使它不在训练集中

如果您在包装了特征提取器(例如CountVectorizer或TfidfVectorizer)和分类器的管道上执行交叉验证,则所有操作都将自动开箱即用:仅在序列测试集中出现的特征将被忽略(不映射到向量表示中的维度)

有关如何使用
词汇表
属性将要素名称映射到中的标注的更多详细信息

还有一个例子说明了这一点

编辑:固定的列车/测试打字错误


编辑2:修复了示例的断开链接。

谢谢,让我放心:-)死链接::(@Ashlaban谢谢你的报告,我修复了断开的链接。