R 基于质心距离的数据带识别

R 基于质心距离的数据带识别,r,cluster-analysis,hierarchical-clustering,outliers,R,Cluster Analysis,Hierarchical Clustering,Outliers,我正在尝试使用聚类来识别数据集中的波段。我正在处理供应链数据,因此我的数据如下所示: 相关列为每种产品的价格 问题是,有时我们错误地认为该产品的价格是100而不是10,因此每个产品的价格看起来像(2,0.25,3)。我想创建一个代码,仅当一个额外集群的平均价格至少是所有现有集群的2倍或2倍时,才创建集群 例如,如果我的每个价格是(4、5、6、13、14、15),我希望它返回两个质心为5和14的集群。另一方面,如果我的数据看起来像(3,4,5,6),它应该返回一个集群 目标是创建一个代码,用于返

我正在尝试使用聚类来识别数据集中的波段。我正在处理供应链数据,因此我的数据如下所示:

相关列为每种产品的价格

问题是,有时我们错误地认为该产品的价格是100而不是10,因此每个产品的价格看起来像(2,0.25,3)。我想创建一个代码,仅当一个额外集群的平均价格至少是所有现有集群的2倍或2倍时,才创建集群

例如,如果我的每个价格是(4、5、6、13、14、15),我希望它返回两个质心为5和14的集群。另一方面,如果我的数据看起来像(3,4,5,6),它应该返回一个集群

目标是创建一个代码,用于返回已生成多个集群的项目的产品代码,以便我可以审核这些产品代码的错误度量单位(案例100与案例10)

我正在考虑使用分裂层次聚类,但我不知道如何引入质心距离规则来创建新的聚类


我对R相当陌生,但我有SQL和Stata方面的经验,所以我正在寻找一个包来完成这项工作,或者帮助我完成这项工作所需的语法。

这里不要使用集群

虽然您可能可以使用具有类似距离函数的比率和8x阈值的HAC,但这将是相当不可靠和昂贵的:聚类通常需要O(n²)或O(n³)


如果您知道这些错误会发生,但并不经常发生,那么我宁愿使用经典的统计方法。例如,计算中值,然后将大于/小于中值9倍的值报告为误差。如果错误很少出现,甚至可以使用均值,但中位数更可靠。

这里不要使用聚类

虽然您可能可以使用具有类似距离函数的比率和8x阈值的HAC,但这将是相当不可靠和昂贵的:聚类通常需要O(n²)或O(n³)


如果您知道这些错误会发生,但并不经常发生,那么我宁愿使用经典的统计方法。例如,计算中值,然后将大于/小于中值9倍的值报告为误差。如果错误很少出现,你甚至可以使用平均值,但中位数更可靠。

请跳过去学习如何制作一篇好的重复文章。1) 请以文本形式添加数据,并确保显示您所需的输出。请点击以了解如何制作一篇好的可复制文章。1) 请以文本形式添加数据,并确保显示所需的输出。感谢您的帮助!谢谢你的帮助!