Python 考拉与Sklearn-ValueError不兼容:无法将字符串转换为float:';x';

Python 考拉与Sklearn-ValueError不兼容:无法将字符串转换为float:';x';,python,pandas,databricks,spark-koalas,Python,Pandas,Databricks,Spark Koalas,我尝试适应与Pandas配合良好的代码: import pandas as pd from databricks import koalas as ks from sklearn import preprocessing pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000]}) df = ks.from_pandas(pdf) min_max_scaler = preprocessing.MinMaxScaler

我尝试适应与Pandas配合良好的代码:

import pandas as pd
from databricks import koalas as ks
from sklearn import preprocessing

pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000]})

df = ks.from_pandas(pdf)

min_max_scaler = preprocessing.MinMaxScaler()
result = min_max_scaler.fit_transform(df)
它在最后一行失败,出现以下错误:

ValueError: could not convert string to float: 'x'
似乎考拉中的标题行被
fit\u transform
函数解释为正常行

有什么解决办法吗


谢谢。

换衣服你会更进一步

df = ks.from_pandas(pdf)


要在熊猫和考拉数据框中显式地将索引列设为
x

您可以通过更改

df = ks.from_pandas(pdf)


要在熊猫和考拉数据帧中显式地将索引列设为
x

如果将
df
转换为numpy数组,则此操作有效。在创建您的
df
df=df.to_numpy()
@prp:Cool,谢谢。但在不将考拉df转换为Numpy阵列的情况下,是否可以使用sklearn?我认为考拉的整个想法是从熊猫的结构中获益,同时处理更大的数据量。如果我转换成Numpy,那么我就失去了这个好处。如果你将
df
转换成Numpy数组,它就会起作用。在创建您的
df
df=df.to_numpy()
@prp:Cool,谢谢。但在不将考拉df转换为Numpy阵列的情况下,是否可以使用sklearn?我认为考拉的整个想法是从熊猫的结构中获益,同时处理更大的数据量。如果我转换成Numpy,那么我失去了这个好处。