Python Sklearn多类数据集加载_Python_Dataset_Scikit Learn

Python Sklearn多类数据集加载

python scikit-learn

Python Sklearn多类数据集加载,python,dataset,scikit-learn,Python,Dataset,Scikit Learn,对于多类问题，我使用Scikit学习。我发现很少有关于如何加载具有多个类的自定义数据集的示例。sklearn.datasets.load_files方法似乎不适合，因为文件需要多次存储。我现在有以下结构： X=>Python列表和功能列表（文本） y=>Python列表和类列表（文本）如何将其转换为Scikit Learn可以在分类器中使用的结构 import numpy as np from sklearn.preprocessing import MultiLabelBin

对于多类问题，我使用Scikit学习。我发现很少有关于如何加载具有多个类的自定义数据集的示例。

sklearn.datasets.load_files

方法似乎不适合，因为文件需要多次存储。我现在有以下结构：

X=>Python列表和功能列表（文本）

y=>Python列表和类列表（文本）

如何将其转换为Scikit Learn可以在分类器中使用的结构

    import numpy as np
    from sklearn.preprocessing import MultiLabelBinarizer

    X = np.loadtxt('samples.csv', delimiter=",")
    y_aux = np.loadtxt('targets.csv', delimiter=",")
    y = MultiLabelBinarizer().fit_transform(y_aux)

代码解释：假设您的所有功能都存储在名为samples.csv的文件中，而多类标签则存储在另一个名为targets.csv的文件中（它们当然可以存储在同一个文件中，您只需拆分列）。为清楚起见，在本例中，我的文件包含：

```
samples.csv
```
4.0,3.2,5.5
6.8,5.6,3.3
```
targets.csv
```
1,4您的数据集（或其子集）是什么样子的？转换后您希望得到什么样的结果？（1）加载到sklearn中的数据集应为数字形式，而不是字符串或数字以外的任何形式（2）分配给输出的列，具有单独的浮点，如
```
0.0、1.0、2.0、，3.0将符合多类分类器的条件。这有用吗？
y = array([[1, 0, 0, 1],
   [0, 1, 1, 0]])
														
```