Python pyspark数据帧中的离群点检测_Python_Apache Spark_Dataframe_Pyspark_Pyspark Sql

Python pyspark数据帧中的离群点检测

python apache-spark dataframe pyspark

Python pyspark数据帧中的离群点检测,python,apache-spark,dataframe,pyspark,pyspark-sql,Python,Apache Spark,Dataframe,Pyspark,Pyspark Sql,我对Spark和Hadoop世界很陌生。我已经开始在互联网上自学这些主题。我想知道如果Spark中的数据帧是不可变的，我们如何在Spark数据帧中执行离群点检测？是否有任何火花组件或模块可以执行此操作？我正在为Spark使用PySpark API，因此如果有人回复如何在PySpark中实现这一点，我将不胜感激。如果我能在PySPark（Pyhton）中的Spark数据帧中执行离群点检测，我将不胜感激。提前多谢据我所知，没有专门用于检测异常值的API或软件包，因为数据本身因应用程序而异。然而，有

我对Spark和Hadoop世界很陌生。我已经开始在互联网上自学这些主题。我想知道如果Spark中的数据帧是不可变的，我们如何在Spark数据帧中执行离群点检测？是否有任何火花组件或模块可以执行此操作？我正在为Spark使用PySpark API，因此如果有人回复如何在PySpark中实现这一点，我将不胜感激。如果我能在PySPark（Pyhton）中的Spark数据帧中执行离群点检测，我将不胜感激。提前多谢

据我所知，没有专门用于检测异常值的API或软件包，因为数据本身因应用程序而异。然而，有两种已知的方法都有助于识别异常值。让我们首先看看术语异常值的含义，它只是指超出观察范围/范围的极值。在以直方图方式或散点图可视化数据时，可以看到这些异常值的一个很好的例子是，它们可以强烈地影响静态数据，并大大压缩有意义的数据。或者，它们可以被视为对数据的统计汇总产生重大影响。例如使用平均值或标准偏差后。这肯定会产生误导，危险在于，当我们使用包含异常值的训练数据时，训练将花费更长的时间，因为模型将难以处理超出范围的值，因此我们使用的模型精度较低，结果较差或“从未收敛的客观测度”，即。，根据训练时间或某些精度值范围，比较测试和训练的输出/得分

尽管在您的数据中，异常值作为不受欢迎的实体是很常见的，但它们仍然可以作为异常的标志，在那里，它们的检测本身将是发现欺诈或提高安全性的一种方法

以下是一些k自己的异常值检测方法（更多细节可在本书中找到）：

极值分析
概率和统计模型
线性模型：减少数据维度
基于邻近度的模型：主要使用聚类

对于代码，我建议使用mapr中的这个好代码。希望这个答案有帮助。祝你好运。

以下是一些k自己的异常值检测方法（更多细节可在本书中找到）：

极值分析
概率和统计模型
线性模型：减少数据维度
基于邻近度的模型：主要使用聚类

对于代码，我建议使用mapr中的这个好代码。希望这个答案有帮助。祝你好运。

为什么这次投票被否决了两次？这是一个很好的问题，需要更多的关注。为什么这会被否决两次？这是一个很好的问题，需要更多的关注。