R 基于质心距离的数据带识别_R_Cluster Analysis_Hierarchical Clustering_Outliers

R 基于质心距离的数据带识别

R 基于质心距离的数据带识别,r,cluster-analysis,hierarchical-clustering,outliers,R,Cluster Analysis,Hierarchical Clustering,Outliers,我正在尝试使用聚类来识别数据集中的波段。我正在处理供应链数据，因此我的数据如下所示：相关列为每种产品的价格问题是，有时我们错误地认为该产品的价格是100而不是10，因此每个产品的价格看起来像（2,0.25,3）。我想创建一个代码，仅当一个额外集群的平均价格至少是所有现有集群的2倍或2倍时，才创建集群例如，如果我的每个价格是（4、5、6、13、14、15），我希望它返回两个质心为5和14的集群。另一方面，如果我的数据看起来像（3，4，5，6），它应该返回一个集群目标是创建一个代码，用于返

我正在尝试使用聚类来识别数据集中的波段。我正在处理供应链数据，因此我的数据如下所示：

相关列为每种产品的价格

问题是，有时我们错误地认为该产品的价格是100而不是10，因此每个产品的价格看起来像（2,0.25,3）。我想创建一个代码，仅当一个额外集群的平均价格至少是所有现有集群的2倍或2倍时，才创建集群

例如，如果我的每个价格是（4、5、6、13、14、15），我希望它返回两个质心为5和14的集群。另一方面，如果我的数据看起来像（3，4，5，6），它应该返回一个集群

目标是创建一个代码，用于返回已生成多个集群的项目的产品代码，以便我可以审核这些产品代码的错误度量单位（案例100与案例10）

我正在考虑使用分裂层次聚类，但我不知道如何引入质心距离规则来创建新的聚类

我对R相当陌生，但我有SQL和Stata方面的经验，所以我正在寻找一个包来完成这项工作，或者帮助我完成这项工作所需的语法。

这里不要使用集群

虽然您可能可以使用具有类似距离函数的比率和8x阈值的HAC，但这将是相当不可靠和昂贵的：聚类通常需要O（n²）或O（n³）

如果您知道这些错误会发生，但并不经常发生，那么我宁愿使用经典的统计方法。例如，计算中值，然后将大于/小于中值9倍的值报告为误差。如果错误很少出现，甚至可以使用均值，但中位数更可靠。

这里不要使用聚类

虽然您可能可以使用具有类似距离函数的比率和8x阈值的HAC，但这将是相当不可靠和昂贵的：聚类通常需要O（n²）或O（n³）

如果您知道这些错误会发生，但并不经常发生，那么我宁愿使用经典的统计方法。例如，计算中值，然后将大于/小于中值9倍的值报告为误差。如果错误很少出现，你甚至可以使用平均值，但中位数更可靠。

请跳过去学习如何制作一篇好的重复文章。1）请以文本形式添加数据，并确保显示您所需的输出。请点击以了解如何制作一篇好的可复制文章。1）请以文本形式添加数据，并确保显示所需的输出。感谢您的帮助！谢谢你的帮助！