Python 如何一致地缩放数据帧MinMaxScaler()sklearn

Python 如何一致地缩放数据帧MinMaxScaler()sklearn,python,scikit-learn,scale,Python,Scikit Learn,Scale,我有三个数据帧,每个数据帧分别使用MinMaxScaler()进行缩放 我遇到的问题是,每个数据帧都会根据自己的一组列最小值和最大值进行缩放。我需要将我的所有数据帧缩放到相同的值,就好像它们共享整个数据的同一组列最小值和最大值一样。有没有办法用MinMaxScaler()实现这一点?一种选择是制作一个大数据帧,然后在分区之前缩放数据帧,但这并不理想。请查看sklearn的优秀功能 如您所见,支持partial\u fit()!这允许在线缩放/小批量缩放,您可以控制小批量 例如: import n

我有三个数据帧,每个数据帧分别使用MinMaxScaler()进行缩放

我遇到的问题是,每个数据帧都会根据自己的一组列最小值和最大值进行缩放。我需要将我的所有数据帧缩放到相同的值,就好像它们共享整个数据的同一组列最小值和最大值一样。有没有办法用MinMaxScaler()实现这一点?一种选择是制作一个大数据帧,然后在分区之前缩放数据帧,但这并不理想。

请查看sklearn的优秀功能

如您所见,支持
partial\u fit()
!这允许在线缩放/小批量缩放,您可以控制小批量

例如:

import numpy as np
from sklearn.preprocessing import MinMaxScaler

a = np.array([[1,2,3]])
b = np.array([[10,20,30]])
c = np.array([[5, 10, 15]])

""" Scale on all datasets together in one batch """
offline_scaler = MinMaxScaler()
offline_scaler.fit(np.vstack((a, b, c)))                # fit on whole data at once
a_offline_scaled = offline_scaler.transform(a)
b_offline_scaled = offline_scaler.transform(b)
c_offline_scaled = offline_scaler.transform(c)
print('Offline scaled')
print(a_offline_scaled)
print(b_offline_scaled)
print(c_offline_scaled)

""" Scale on all datasets together in minibatches """
online_scaler = MinMaxScaler()
online_scaler.partial_fit(a)                            # partial fit 1
online_scaler.partial_fit(b)                            # partial fit 2
online_scaler.partial_fit(c)                            # partial fit 3
a_online_scaled = online_scaler.transform(a)
b_online_scaled = online_scaler.transform(b)
c_online_scaled = online_scaler.transform(c)
print('Online scaled')
print(a_online_scaled)
print(b_online_scaled)
print(c_online_scaled)
输出:

Offline scaled
[[ 0.  0.  0.]]
[[ 1.  1.  1.]]
[[ 0.44444444  0.44444444  0.44444444]]
Online scaled
[[ 0.  0.  0.]]
[[ 1.  1.  1.]]
[[ 0.44444444  0.44444444  0.44444444]]

您可以这样做,但实际上,每个特征(列)都是基于其最大值和最小值进行缩放的,而不是基于数据集的最小值和最大值。我认为在所有情况下,您都需要根据其最小值和最大值来缩放其列。所以你应该使用MinMaxScaler@serafeim我编辑这篇文章是为了反映你所说的,希望能澄清。谢谢。这正是我需要完成的。
Offline scaled
[[ 0.  0.  0.]]
[[ 1.  1.  1.]]
[[ 0.44444444  0.44444444  0.44444444]]
Online scaled
[[ 0.  0.  0.]]
[[ 1.  1.  1.]]
[[ 0.44444444  0.44444444  0.44444444]]