Python 将数据拉入机器学习数据框的正确且最有效的方法
给定一个数据帧,如下所示Python 将数据拉入机器学习数据框的正确且最有效的方法,python,pandas,machine-learning,Python,Pandas,Machine Learning,给定一个数据帧,如下所示 x1 x2 x3 x4 x5 x6 y 2 3 4 5 5 7 11.32 3 4 5 3 2 3 10.99 如果有更多的数据,比如说1000行 将此数据读入到正确的X,y分割中最有效的方法是什么 谢谢,J.所以您需要从最后一列中提取值,并从所有其他列中提取特征。您可以与整数索引一起使用,为此: y = df.iloc[:, -1].values X = df.iloc[:, :-1].values 以你为例: In [153]: X Ou
x1 x2 x3 x4 x5 x6 y
2 3 4 5 5 7 11.32
3 4 5 3 2 3 10.99
如果有更多的数据,比如说1000行
将此数据读入到正确的X,y分割中最有效的方法是什么
谢谢,J.所以您需要从最后一列中提取值,并从所有其他列中提取特征。您可以与整数索引一起使用,为此:
y = df.iloc[:, -1].values
X = df.iloc[:, :-1].values
以你为例:
In [153]: X
Out[153]:
array([[2, 3, 4, 5, 5, 7],
[3, 4, 5, 3, 2, 3]], dtype=int64)
In [154]: y
Out[154]: array([ 11.32, 10.99])
通常,对于scikit-learn
方法,可以传递数据帧和序列,因此可以省略值
属性:
y = df.iloc[:, -1]
X = df.iloc[:, :-1]
In [156]: X
Out[156]:
x1 x2 x3 x4 x5 x6
0 2 3 4 5 5 7
1 3 4 5 3 2 3
In [157]: y
Out[157]:
0 11.32
1 10.99
Name: y, dtype: float64