Machine learning SKLearn交叉验证:
我正在进行文本分类,并将处理训练数据中未捕获的单词,这意味着该单词应被视为未知单词 有人知道如果训练数据中不存在某个单词,scikit的交叉验证是否会将其视为看不见的单词吗Machine learning SKLearn交叉验证:,machine-learning,classification,scikit-learn,document-classification,Machine Learning,Classification,Scikit Learn,Document Classification,我正在进行文本分类,并将处理训练数据中未捕获的单词,这意味着该单词应被视为未知单词 有人知道如果训练数据中不存在某个单词,scikit的交叉验证是否会将其视为看不见的单词吗 或者scikit会将所有单词视为特征,即使它不在训练集中 如果您在包装了特征提取器(例如CountVectorizer或TfidfVectorizer)和分类器的管道上执行交叉验证,则所有操作都将自动开箱即用:仅在序列测试集中出现的特征将被忽略(不映射到向量表示中的维度) 有关如何使用词汇表属性将要素名称映射到中的标注的更多
或者scikit会将所有单词视为特征,即使它不在训练集中 如果您在包装了特征提取器(例如CountVectorizer或TfidfVectorizer)和分类器的管道上执行交叉验证,则所有操作都将自动开箱即用:仅在序列测试集中出现的特征将被忽略(不映射到向量表示中的维度) 有关如何使用
词汇表
属性将要素名称映射到中的标注的更多详细信息
还有一个例子说明了这一点
编辑:固定的列车/测试打字错误
编辑2:修复了示例的断开链接。谢谢,让我放心:-)死链接::(@Ashlaban谢谢你的报告,我修复了断开的链接。