Scikit learn 如何为添加到CountVectorizer转换数据的非文本特征设置名称?

Scikit learn 如何为添加到CountVectorizer转换数据的非文本特征设置名称?,scikit-learn,countvectorizer,Scikit Learn,Countvectorizer,我有一个代码可以向矢量化数据集添加一个新的非文本特征(文档长度): from sklearn.feature_extraction.text import CountVectorizer from scipy.sparse import csr_matrix, hstack def add_feature(X, feature_to_add): return hstack([X, csr_matrix(feature_to_add).T], 'csr') vect = CountVect

我有一个代码可以向矢量化数据集添加一个新的非文本特征(文档长度):

from sklearn.feature_extraction.text import CountVectorizer
from scipy.sparse import csr_matrix, hstack
def add_feature(X, feature_to_add):
    return hstack([X, csr_matrix(feature_to_add).T], 'csr')
vect = CountVectorizer().fit(X_train)
X_train_vectorized = vect.transform(X_train)
X_train1 = add_feature(X_train_vectorized, X_train.str.len())
我想把这个新功能称为“文档的长度”。如何做到这一点?
谢谢。

那有什么问题?您的
添加功能()
是否未按预期工作?请添加一些示例数据,如果添加新功能效果良好,则会出现错误。我不知道如何命名这个新功能。例如,为了能够看到它的名称和分类器的coef_uuu权重,我不理解。您当前如何使用
coef\u
来“查看”其他功能(不添加此新功能)?feature\u names=np.array(vect.get\u feature\u names())coef=model.coef\u0]sorted\u coef\u index=coef.argsort()features\u weights=pd.Series(coef[sorted\u coef\u index],index=feature\u name[sorted\u coef\u index])只需将新功能名称附加到
功能\u名称
,然后执行此处的操作。