Python 如何将tfidf功能与自制功能相结合
对于一个简单的网页分类系统,我尝试将一些自制的特性(HTML标记的频率、某些单词搭配的频率)与应用tfidf后获得的特性结合起来。然而,我面临着以下问题,我真的不知道如何从这里开始 现在,我正试图将所有这些放在一个数据帧中,主要是通过以下代码: 但这并没有返回我在原始数据框中的索引(从0到2464)以及其他特性,它似乎也不会产生可读的列名,并且它使用数字代替不同的单词作为标题 此外,我不确定这是否是组合功能的正确方法,因为这将导致极高维的数据帧,这可能对分类器没有好处。您可以使用合并两个稀疏矩阵,而无需转换为密集格式Python 如何将tfidf功能与自制功能相结合,python,pandas,scikit-learn,nlp,tf-idf,Python,Pandas,Scikit Learn,Nlp,Tf Idf,对于一个简单的网页分类系统,我尝试将一些自制的特性(HTML标记的频率、某些单词搭配的频率)与应用tfidf后获得的特性结合起来。然而,我面临着以下问题,我真的不知道如何从这里开始 现在,我正试图将所有这些放在一个数据帧中,主要是通过以下代码: 但这并没有返回我在原始数据框中的索引(从0到2464)以及其他特性,它似乎也不会产生可读的列名,并且它使用数字代替不同的单词作为标题 此外,我不确定这是否是组合功能的正确方法,因为这将导致极高维的数据帧,这可能对分类器没有好处。您可以使用合并两个稀疏矩阵
from scipy.sparse import hstack
hstack([X_train_counts, X_train_custom])
from scipy.sparse import hstack
hstack([X_train_counts, X_train_custom])