Python 特征是文本（标签）和数字组合的方法_Python_Scikit Learn

Python 特征是文本（标签）和数字组合的方法

python scikit-learn

Python 特征是文本（标签）和数字组合的方法,python,scikit-learn,Python,Scikit Learn,我正试图找到一种很好的方法来处理包含文本的数据集，文本实际上更像标签和数字数据。例如，在数据集中，我有城市、州、纬度/经度，我想分类。这是有监督的，我有数据的标签（y）因此，在这种情况下，文本实际上不是一堆单词或类似的东西。它实际上只是一个标签，更像是0，1。。。但是，我不认为我想给算法一个想法，即这些是真实值。我尝试了几种不同的算法，包括svm.SVC和LinearSVC，以及DecisionTree。对于svm，我使用两种不同的方法（包括LabelEncoder）将城市和州转换为数值。但直

我正试图找到一种很好的方法来处理包含文本的数据集，文本实际上更像标签和数字数据。例如，在数据集中，我有城市、州、纬度/经度，我想分类。这是有监督的，我有数据的标签（y）

因此，在这种情况下，文本实际上不是一堆单词或类似的东西。它实际上只是一个标签，更像是0，1。。。但是，我不认为我想给算法一个想法，即这些是真实值。我尝试了几种不同的算法，包括svm.SVC和LinearSVC，以及DecisionTree。对于svm，我使用两种不同的方法（包括LabelEncoder）将城市和州转换为数值。但直觉上这似乎不正确，我对分数不满意

非常感谢您的任何想法或意见。

看起来您正在寻找。有关说明，请参阅文档的一节。其思想是，如果样本属于当前城市，则将为每个城市创建一列，并使用0/1值。你可能也会对它感兴趣