Python 看到一个错误，上面写着：'；numpy.ndarray和#x27；对象没有属性'；地图'；_Python_Python 3.x_K Means

Python 看到一个错误，上面写着：'；numpy.ndarray和#x27；对象没有属性'；地图'；

python python-3.x

Python 看到一个错误，上面写着：'；numpy.ndarray和#x27；对象没有属性'；地图'；,python,python-3.x,k-means,Python,Python 3.x,K Means,我正在从较大的数据帧中选择数据的子集 dataset = df.select('RatingScore', 'CategoryScore', 'CouponBin', 'TTM', 'Price', 'Spread', 'Coupon', 'WAM', 'DV') dataset =

我正在从较大的数据帧中选择数据的子集

dataset = df.select('RatingScore',
             'CategoryScore',
             'CouponBin',
             'TTM',
             'Price',
             'Spread',
             'Coupon', 
             'WAM', 
             'DV')

dataset = dataset.fillna(0)
dataset.show(5,True)
dataset.printSchema()

现在，我将其计入我的KMeans模型中

from numpy import array
from math import sqrt
from pyspark.mllib.clustering import KMeans, KMeansModel
import numpy as np

data_array=np.array(dataset)

#data_array =  np.array(dataset.select('RatingScore', 'CategoryScore', 'CouponBin', 'TTM', 'Price', 'Spread', 'Coupon', 'WAM', #'DV').collect())

# Build the model (cluster the data)
clusters = KMeans.train(data_array, 2, maxIterations=10, initializationMode="random")

# Evaluate clustering by computing Within Set Sum of Squared Errors
def error(point):
    center = clusters.centers[clusters.predict(point)]
    return sqrt(sum([x**2 for x in (point - center)]))

WSSSE = data_array.map(lambda point: error(point)).reduce(lambda x, y: x + y)
print("Within Set Sum of Squared Error = " + str(WSSSE))

此行：

clusters=KMeans.train（数据数组，2，maxIterations=10，initializationMode=“random”）

引发此错误：

AttributeError:'numpy.ndarray'对象没有属性“map”

从代码中可以看出，我尝试用两种不同的方法创建数组。两者都不起作用。如果我试图直接从子集数据框中收取项目费用，则会出现以下错误：

AttributeError: 'DataFrame' object has no attribute 'map'

我在这里遗漏了什么？

我认为有两种方式：

按照建议将

pandas.DataFrame

转换为

spark_df.rdd

将

pandas.DataFrame

转换为多个

pandas.Series

，根据

这两个对象都没有

.map

属性，也没有

reduce

属性，您从这些错误消息中了解（不）什么？这是否回答了您的问题，