Python 看到一个错误,上面写着:';numpy.ndarray和#x27;对象没有属性';地图';
我正在从较大的数据帧中选择数据的子集Python 看到一个错误,上面写着:';numpy.ndarray和#x27;对象没有属性';地图';,python,python-3.x,k-means,Python,Python 3.x,K Means,我正在从较大的数据帧中选择数据的子集 dataset = df.select('RatingScore', 'CategoryScore', 'CouponBin', 'TTM', 'Price', 'Spread', 'Coupon', 'WAM', 'DV') dataset =
dataset = df.select('RatingScore',
'CategoryScore',
'CouponBin',
'TTM',
'Price',
'Spread',
'Coupon',
'WAM',
'DV')
dataset = dataset.fillna(0)
dataset.show(5,True)
dataset.printSchema()
现在,我将其计入我的KMeans模型中
from numpy import array
from math import sqrt
from pyspark.mllib.clustering import KMeans, KMeansModel
import numpy as np
data_array=np.array(dataset)
#data_array = np.array(dataset.select('RatingScore', 'CategoryScore', 'CouponBin', 'TTM', 'Price', 'Spread', 'Coupon', 'WAM', #'DV').collect())
# Build the model (cluster the data)
clusters = KMeans.train(data_array, 2, maxIterations=10, initializationMode="random")
# Evaluate clustering by computing Within Set Sum of Squared Errors
def error(point):
center = clusters.centers[clusters.predict(point)]
return sqrt(sum([x**2 for x in (point - center)]))
WSSSE = data_array.map(lambda point: error(point)).reduce(lambda x, y: x + y)
print("Within Set Sum of Squared Error = " + str(WSSSE))
此行:clusters=KMeans.train(数据数组,2,maxIterations=10,initializationMode=“random”)
引发此错误:AttributeError:'numpy.ndarray'对象没有属性“map”
从代码中可以看出,我尝试用两种不同的方法创建数组。两者都不起作用。如果我试图直接从子集数据框中收取项目费用,则会出现以下错误:
AttributeError: 'DataFrame' object has no attribute 'map'
我在这里遗漏了什么?我认为有两种方式:
pandas.DataFrame
转换为spark_df.rdd
pandas.DataFrame
转换为多个pandas.Series
,根据这两个对象都没有
.map
属性,也没有reduce
属性,您从这些错误消息中了解(不)什么?这是否回答了您的问题,