Python 特征是文本(标签)和数字组合的方法

Python 特征是文本(标签)和数字组合的方法,python,scikit-learn,Python,Scikit Learn,我正试图找到一种很好的方法来处理包含文本的数据集,文本实际上更像标签和数字数据。例如,在数据集中,我有城市、州、纬度/经度,我想分类。这是有监督的,我有数据的标签(y) 因此,在这种情况下,文本实际上不是一堆单词或类似的东西。它实际上只是一个标签,更像是0,1。。。但是,我不认为我想给算法一个想法,即这些是真实值。我尝试了几种不同的算法,包括svm.SVC和LinearSVC,以及DecisionTree。对于svm,我使用两种不同的方法(包括LabelEncoder)将城市和州转换为数值。但直

我正试图找到一种很好的方法来处理包含文本的数据集,文本实际上更像标签和数字数据。例如,在数据集中,我有城市、州、纬度/经度,我想分类。这是有监督的,我有数据的标签(y)

因此,在这种情况下,文本实际上不是一堆单词或类似的东西。它实际上只是一个标签,更像是0,1。。。但是,我不认为我想给算法一个想法,即这些是真实值。我尝试了几种不同的算法,包括svm.SVC和LinearSVC,以及DecisionTree。对于svm,我使用两种不同的方法(包括LabelEncoder)将城市和州转换为数值。但直觉上这似乎不正确,我对分数不满意


非常感谢您的任何想法或意见。

看起来您正在寻找。有关说明,请参阅文档的一节。其思想是,如果样本属于当前城市,则将为每个城市创建一列,并使用0/1值。你可能也会对它感兴趣