Scikit learn 如何使用sci工具包学习听写器拆分单词？_Scikit Learn

Scikit learn 如何使用sci工具包学习听写器拆分单词？

scikit-learn

Scikit learn 如何使用sci工具包学习听写器拆分单词？,scikit-learn,Scikit Learn,我有一个包含类似字典的记录的数据集。字典中的每个值都包含文本： [{name: 'text one', feature_two: 'text two'}, ...] 例如，通过使用DictVectorizer，我得到了记录中每个值的全部内容所做的标记化 {'name=text one': 1, 'feature_two=text two': 23, ...} 我想用这种方式将值中的单词拆分： {'name=text': 1, 'name=one': 1, 'feature_two=two':

我有一个包含类似字典的记录的数据集。字典中的每个值都包含文本：

[{name: 'text one', feature_two: 'text two'}, ...]

例如，通过使用DictVectorizer，我得到了记录中每个值的全部内容所做的标记化

{'name=text one': 1, 'feature_two=text two': 23, ...}

我想用这种方式将值中的单词拆分：

{'name=text': 1, 'name=one': 1, 'feature_two=two': 23, 'feature_two=text': 11 ...}

*数字是随机的，别介意

现在我在做这样的事情：

file_path = 'myFile.csv'
all_data = list(csv.DictReader(open(file_path, 'rU')))

dataset = [ {'name': record['name'], 'feature': record['feature'] } for record in all_data ]
target = [record['y'] for record in all_data ]

vec = DictVectorizer()
xs = vec.fit_transform(dataset).toarray()

为了得到我想要的东西，我需要如何改变我的管道