Pandas 在pyspark中获取数据帧中的timeseries线条图或包含缺失值的列表的最佳实践是什么?
为此,我有Pandas 在pyspark中获取数据帧中的timeseries线条图或包含缺失值的列表的最佳实践是什么?,pandas,matplotlib,pyspark,seaborn,missing-data,Pandas,Matplotlib,Pyspark,Seaborn,Missing Data,为此,我有pysparkdataframe,我想基于timestamp列绘制一个列。问题是感兴趣的列包含缺少的值(None),我不希望绘制缺少的值 我的数据框摘录如下,可通过以下方式轻松创建: 除了使用插值或插补外,列中包含建议的缺失值,我仍然希望保留间隙,并且不接触可视化中数据的性质,如以下示例: 我尝试的是使用以下技巧,使用toPandas()将pyspark中的数据转换为Pandas,然后应用pythonic脚本进行绘图部署seaborn或matplotlib特别提供sns.pointp
pyspark
dataframe,我想基于timestamp列绘制一个列。问题是感兴趣的列包含缺少的值(None
),我不希望绘制缺少的值
我的数据框摘录如下,可通过以下方式轻松创建:
除了使用插值或插补外,列中包含建议的缺失值,我仍然希望保留间隙,并且不接触可视化中数据的性质,如以下示例:
我尝试的是使用以下技巧,使用toPandas()
将pyspark中的数据转换为Pandas,然后应用pythonic脚本进行绘图部署seaborn
或matplotlib
特别提供sns.pointplot()
和sns.lineplot()
#读取数据
sdf=spark.read.parquet(输入路径)
#熊猫
pdf=sdf.toPandas()
这个技巧的问题是,我没有使用pyspark
及其工作人员的能力,而且为了可视化大数据(大约8万条记录),在可用的timestamp
窗口上捕获绘图并监控异常值需要很长时间来推理异常值检测方法输出
如果您有任何帮助来更新此问题的解决方案,我们将不胜感激 在绘图之前,是否可以选择对数据进行分析?@werner我已经使用了它,因为我无法绘制整个数据,但在这种情况下,它实际上不是一个选项。因为我可能会在随机抽样时跳过该事件(异常值)。其目的是绘制所有数据点,尽管它们因缺少值而存在间隙。我正在考虑用唯一的固定值(例如0.123456)替换缺少的值,并将这些部分绘制为与背景相同的颜色,如白色
#FFFFFF
。
# +---------------------+-------+
# | timestamp | col1 |
# +---------------------+-------+
# | 2021-05-10 19:48:36 | 714 |
# | 2021-05-10 15:34:26 | None |
# | 2021-05-10 14:08:31 | 634 |
# | 2021-05-10 20:29:46 | 8453 |
# | 2021-05-10 19:48:36 | None |
# | 2021-05-10 00:20:25 | 3825 |
# +---------------------+-------+