Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/328.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/neo4j/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何将tfidf功能与自制功能相结合_Python_Pandas_Scikit Learn_Nlp_Tf Idf - Fatal编程技术网

Python 如何将tfidf功能与自制功能相结合

Python 如何将tfidf功能与自制功能相结合,python,pandas,scikit-learn,nlp,tf-idf,Python,Pandas,Scikit Learn,Nlp,Tf Idf,对于一个简单的网页分类系统,我尝试将一些自制的特性(HTML标记的频率、某些单词搭配的频率)与应用tfidf后获得的特性结合起来。然而,我面临着以下问题,我真的不知道如何从这里开始 现在,我正试图将所有这些放在一个数据帧中,主要是通过以下代码: 但这并没有返回我在原始数据框中的索引(从0到2464)以及其他特性,它似乎也不会产生可读的列名,并且它使用数字代替不同的单词作为标题 此外,我不确定这是否是组合功能的正确方法,因为这将导致极高维的数据帧,这可能对分类器没有好处。您可以使用合并两个稀疏矩阵

对于一个简单的网页分类系统,我尝试将一些自制的特性(HTML标记的频率、某些单词搭配的频率)与应用tfidf后获得的特性结合起来。然而,我面临着以下问题,我真的不知道如何从这里开始

现在,我正试图将所有这些放在一个数据帧中,主要是通过以下代码:

但这并没有返回我在原始数据框中的索引(从0到2464)以及其他特性,它似乎也不会产生可读的列名,并且它使用数字代替不同的单词作为标题

此外,我不确定这是否是组合功能的正确方法,因为这将导致极高维的数据帧,这可能对分类器没有好处。

您可以使用合并两个稀疏矩阵,而无需转换为密集格式

from scipy.sparse import hstack

hstack([X_train_counts, X_train_custom])
from scipy.sparse import hstack

hstack([X_train_counts, X_train_custom])