Python 如何处理文本和数字特征的组合?

Python 如何处理文本和数字特征的组合?,python,scikit-learn,Python,Scikit Learn,看看卡格尔,我看到了数字特征(比如类别)和文本特征(比如FullDescription) 我如何就这些数据进行培训?我曾考虑使用矢量化文本,但它会创建稀疏矩阵,而许多学习算法(例如)拒绝使用该矩阵。还有,一旦我有了文本的特征向量,我如何将它与其他特征结合起来 有没有关于如何处理此类数据的建议 谢谢 首先,我将独立学习每个文本字段tf idf功能的线性模型,并将线性模型预测作为附加功能添加到其他功能中,并在组合功能上训练树外分类器或梯度增强回归器。谢谢,这是一个好主意-我会尝试一下。让我们知道组合

看看卡格尔,我看到了数字特征(比如类别)和文本特征(比如FullDescription)

我如何就这些数据进行培训?我曾考虑使用矢量化文本,但它会创建稀疏矩阵,而许多学习算法(例如)拒绝使用该矩阵。还有,一旦我有了文本的特征向量,我如何将它与其他特征结合起来

有没有关于如何处理此类数据的建议


谢谢

首先,我将独立学习每个文本字段tf idf功能的线性模型,并将线性模型预测作为附加功能添加到其他功能中,并在组合功能上训练
树外分类器
梯度增强回归器

谢谢,这是一个好主意-我会尝试一下。让我们知道组合模型是否比文本特征上的线性模型或仅非文本特征上的随机林更好。线性模型回归器,如ElasticNet和SGDRegressor,应该开箱即用,因此非线性SVR或NuSVR回归器也是如此。基于树的回归器还不支持稀疏输入。@ogrisel:使用这种双模型方法,您希望获得多少收益?为什么不将hashingvectorizer与SGD(或任何其他允许部分拟合的线性模型)结合使用呢?SGD是一种线性模型,它通常足以用于高维数据,例如文字袋特征。然而,对于其余的特征,它们可能具有预测性的非线性交互作用,这些交互作用可能被内核SVM、GBRT或额外的树回归模型所利用。