Python CountVectorier拟合整个数据或仅列车数据

Python CountVectorier拟合整个数据或仅列车数据,python,machine-learning,Python,Machine Learning,我的数据包含分类问题的字母序列。我可以使用kmer(形成3个字母的单词)将这些序列转换为数字数据,将它们连接起来,并使用CountVectorier(单词在序列实例中出现的次数),得到数字矩阵 我使用train\u test\u split功能分割数据 正如我们在培训时所知,不应该有任何测试数据的信息。如果在整个数据上安装了计数向量器,那么测试中的唯一单词也将是已知的 我说的对吗?CountVectorier需要安装在列车数据上(仅来自列车数据的唯一字),并使用此cv转换列车和测试数据?是的,您

我的数据包含分类问题的字母序列。我可以使用kmer(形成3个字母的单词)将这些序列转换为数字数据,将它们连接起来,并使用CountVectorier(单词在序列实例中出现的次数),得到数字矩阵

我使用
train\u test\u split
功能分割数据

正如我们在培训时所知,不应该有任何测试数据的信息。如果在整个数据上安装了计数向量器,那么测试中的唯一单词也将是已知的


我说的对吗?CountVectorier需要安装在列车数据上(仅来自列车数据的唯一字),并使用此cv转换列车和测试数据?

是的,您是对的,您不想将任何信息从测试数据泄漏到列车数据上,所以“CountVectorier需要安装在列车数据上”(仅来自列车数据的唯一词语)并使用此cv“转换列车和测试数据”是正确的做法。

谢谢Mostafa!!