Python pyspark数据帧中的离群点检测

Python pyspark数据帧中的离群点检测,python,apache-spark,dataframe,pyspark,pyspark-sql,Python,Apache Spark,Dataframe,Pyspark,Pyspark Sql,我对Spark和Hadoop世界很陌生。我已经开始在互联网上自学这些主题。我想知道如果Spark中的数据帧是不可变的,我们如何在Spark数据帧中执行离群点检测?是否有任何火花组件或模块可以执行此操作?我正在为Spark使用PySpark API,因此如果有人回复如何在PySpark中实现这一点,我将不胜感激。如果我能在PySPark(Pyhton)中的Spark数据帧中执行离群点检测,我将不胜感激。提前多谢 据我所知,没有专门用于检测异常值的API或软件包,因为数据本身因应用程序而异。然而,有

我对Spark和Hadoop世界很陌生。我已经开始在互联网上自学这些主题。我想知道如果Spark中的数据帧是不可变的,我们如何在Spark数据帧中执行离群点检测?是否有任何火花组件或模块可以执行此操作?我正在为Spark使用PySpark API,因此如果有人回复如何在PySpark中实现这一点,我将不胜感激。如果我能在PySPark(Pyhton)中的Spark数据帧中执行离群点检测,我将不胜感激。提前多谢

据我所知,没有专门用于检测异常值的API或软件包,因为数据本身因应用程序而异。然而,有两种已知的方法都有助于识别异常值。 让我们首先看看术语异常值的含义,它只是指超出观察范围/范围的极值。在以直方图方式或散点图可视化数据时,可以看到这些异常值的一个很好的例子是,它们可以强烈地影响静态数据,并大大压缩有意义的数据。或者,它们可以被视为对数据的统计汇总产生重大影响。例如使用平均值或标准偏差后。 这肯定会产生误导,危险在于,当我们使用包含异常值的训练数据时,训练将花费更长的时间,因为模型将难以处理超出范围的值,因此我们使用的模型精度较低,结果较差或“从未收敛的客观测度”,即。,根据训练时间或某些精度值范围,比较测试和训练的输出/得分

尽管在您的数据中,异常值作为不受欢迎的实体是很常见的,但它们仍然可以作为异常的标志,在那里,它们的检测本身将是发现欺诈或提高安全性的一种方法

以下是一些k自己的异常值检测方法(更多细节可在本书中找到):

  • 极值分析
  • 概率和统计模型
  • 线性模型:减少数据维度
  • 基于邻近度的模型:主要使用聚类

对于代码,我建议使用mapr中的这个好代码。希望这个答案有帮助。祝你好运。

据我所知,没有专门用于检测异常值的API或软件包,因为数据本身因应用程序而异。然而,有两种已知的方法都有助于识别异常值。 让我们首先看看术语异常值的含义,它只是指超出观察范围/范围的极值。在以直方图方式或散点图可视化数据时,可以看到这些异常值的一个很好的例子是,它们可以强烈地影响静态数据,并大大压缩有意义的数据。或者,它们可以被视为对数据的统计汇总产生重大影响。例如使用平均值或标准偏差后。 这肯定会产生误导,危险在于,当我们使用包含异常值的训练数据时,训练将花费更长的时间,因为模型将难以处理超出范围的值,因此我们使用的模型精度较低,结果较差或“从未收敛的客观测度”,即。,根据训练时间或某些精度值范围,比较测试和训练的输出/得分

尽管在您的数据中,异常值作为不受欢迎的实体是很常见的,但它们仍然可以作为异常的标志,在那里,它们的检测本身将是发现欺诈或提高安全性的一种方法

以下是一些k自己的异常值检测方法(更多细节可在本书中找到):

  • 极值分析
  • 概率和统计模型
  • 线性模型:减少数据维度
  • 基于邻近度的模型:主要使用聚类

对于代码,我建议使用mapr中的这个好代码。希望这个答案有帮助。祝你好运。

为什么这次投票被否决了两次?这是一个很好的问题,需要更多的关注。为什么这会被否决两次?这是一个很好的问题,需要更多的关注。