Scikit learn 如何使用sci工具包学习听写器拆分单词?

Scikit learn 如何使用sci工具包学习听写器拆分单词?,scikit-learn,Scikit Learn,我有一个包含类似字典的记录的数据集。字典中的每个值都包含文本: [{name: 'text one', feature_two: 'text two'}, ...] 例如,通过使用DictVectorizer,我得到了记录中每个值的全部内容所做的标记化 {'name=text one': 1, 'feature_two=text two': 23, ...} 我想用这种方式将值中的单词拆分: {'name=text': 1, 'name=one': 1, 'feature_two=two':

我有一个包含类似字典的记录的数据集。字典中的每个值都包含文本:

[{name: 'text one', feature_two: 'text two'}, ...]
例如,通过使用DictVectorizer,我得到了记录中每个值的全部内容所做的标记化

{'name=text one': 1, 'feature_two=text two': 23, ...}
我想用这种方式将值中的单词拆分:

{'name=text': 1, 'name=one': 1, 'feature_two=two': 23, 'feature_two=text': 11 ...}
*数字是随机的,别介意

现在我在做这样的事情:

file_path = 'myFile.csv'
all_data = list(csv.DictReader(open(file_path, 'rU')))

dataset = [ {'name': record['name'], 'feature': record['feature'] } for record in all_data ]
target = [record['y'] for record in all_data ]

vec = DictVectorizer()
xs = vec.fit_transform(dataset).toarray()
为了得到我想要的东西,我需要如何改变我的管道