Python 使用scikit learn对.arff文件中的数据进行分类?

Python 使用scikit learn对.arff文件中的数据进行分类?,python,numpy,machine-learning,scikit-learn,weka,Python,Numpy,Machine Learning,Scikit Learn,Weka,在一次培训中,我了解了使用scikit learn对文本进行分类的过程。为了更好地组织数据,我发现了.arff文件,假设我有以下.arff文件: @relation lang_identification @attribute opinion string @attribute lang_identification {bos, pt, es, slov} @data "Pošto je EULEX obećao da će obaviti istragu o prošlosedmičnom i

在一次培训中,我了解了使用scikit learn对文本进行分类的过程。为了更好地组织数据,我发现了.arff文件,假设我有以下.arff文件:

@relation lang_identification
@attribute opinion string
@attribute lang_identification {bos, pt, es, slov}
@data
"Pošto je EULEX obećao da će obaviti istragu o prošlosedmičnom izbijanju nasilja na sjeveru Kosova, taj incident predstavlja još jedan ispit kapaciteta misije da doprinese jačanju vladavine prava.",bos
"De todas as provações que teve de suplantar ao longo da vida, qual foi a mais difícil? O início. Qualquer começo apresenta dificuldades que parecem intransponíveis. Mas tive sempre a minha mãe do meu lado. Foi ela quem me ajudou a encontrar forças para enfrentar as situações mais decepcionantes, negativas, as que me punham mesmo furiosa.",pt
"Al parecer, Andrea Guasch pone que una relación a distancia es muy difícil de llevar como excusa. Algo con lo que, por lo visto, Alex Lequio no está nada de acuerdo. ¿O es que más bien ya ha conseguido la fama que andaba buscando?",es
"Vo väčšine golfových rezortov ide o veľký komplex niekoľkých ihrísk blízko pri sebe spojených s hotelmi a ďalšími možnosťami trávenia voľného času – nie vždy sú manželky či deti nadšenými golfistami, a tak potrebujú iný druh vyžitia. Zaujímavé kombinácie ponúkajú aj rakúske, švajčiarske či talianske Alpy, kde sa dá v zime lyžovať a v lete hrať golf pod vysokými alpskými končiarmi.",slov
我想用scikit进行实验,用一种有监督的方法学习和分类一个全新的测试字符串,比如:

test = "Por ello, ha insistido en que Europa tiene que darle un toque de atención porque Portugal esta incumpliendo la directiva del establecimiento del peaje"
Scipy,让我们加载一个带有以下内容的arff文件:

from scipy.io.arff import loadarff
dataset = loadarff(open('/Users/user/Desktop/toy.arff','r'))
print dataset

这应该返回如下内容:(数组([]),如何使用numpy记录数组通过scikit learn进行分类?

不幸的是,scipy中的ARFF读取器不支持
字符串
属性。数字属性呢?scikit支持它们吗?