Apache spark 随时间变化的三角洲Spark数据处理_Apache Spark_Pyspark_Apache Spark Sql_Data Partitioning - Fatal编程技术网

Apache spark 随时间变化的三角洲Spark数据处理

apache-spark pyspark

Apache spark 随时间变化的三角洲Spark数据处理,apache-spark,pyspark,apache-spark-sql,data-partitioning,Apache Spark,Pyspark,Apache Spark Sql,Data Partitioning,我的数据集列看起来像设备名称日期categorycol1categorycol2categorycol10valuecol1valuecol2值col1000 现在，我每天记录一次数据流，这些数据流在HDF中按天排列成文件夹。因此，人们可以读取每个文件夹来获取这些数据 valuecol1和valuecol2是递增计数器，意味着它们只会递增。为了得到合理的值，我们必须得到一个delta。例如，对于device1，我们需要获得在date2记录的valuecol1和date1之间的差异还要计算

我的数据集列看起来像

设备名称

日期

categorycol1

categorycol2

categorycol10

valuecol1

valuecol2

<代码>值col1000

现在，我每天记录一次数据流，这些数据流在HDF中按天排列成文件夹。因此，人们可以读取每个文件夹来获取这些数据

valuecol1

和

valuecol2

是递增计数器，意味着它们只会递增。为了得到合理的值，我们必须得到一个delta。例如，对于

device1

，我们需要获得在

date2

记录的

valuecol1

和

date1

之间的差异

还要计算新值，例如

calculation1

=

在日期2和日期1记录的值col1之间的差异

+

在日期2和日期1记录的值col2之间的差异

现在，在最后，我们收集了诸如

mean

、

std

和

media

问题：时间序列没有像股票行情数据那样进行共定位

下面的操作会导致大量的洗牌

使用

join

在不同的

日期与数据集本身连接以获得差异


groubbykey
和reducebykey
用于获取类别cols上的聚合
您是否可以建议处理此数据处理的最佳策略
我不完全了解数据处理，但为了避免在连接操作后出现混乱，您可以在连接操作之前创建一个伪单调列（或使用数据集中现有的单调列），并在连接之后简单地创建一个orderby
。groupby也一样，对你有用吗？




[pyspark]相关文章推荐



                                                        
Pyspark 配置单元orc表的sqoop导出
pyspark 
Pyspark自动重命名重复的列
pyspark 
Pyspark EMR引导安装python模块-引导操作1返回非零返回代码
pyspark 
使用指定的'ipython'调用pyspark会导致jupyter笔记本启动
pysparkipython 
Pyspark spark提交集群模式不适用于python spark，但适用于scala spark
pyspark 
Pyspark 在使用google Colaboratory时如何打开Spark UI？
pyspark 
从foreach内部调用Pyspark保存时不起作用
pyspark 
pyspark UDF中的窗口功能
pyspark 
Pyspark DataRicks/Spark DataFrame对象中的executitng代码不支持项分配时接收错误
pyspark 
如何使用python在pyspark上运行sql查询？
pyspark 
如何使用均值和标准差从pyspark中的多个列中删除异常值
pyspark 
pyspark滚动窗口时间框架
pyspark 
Pyspark-行标准化的电流方法经常超时
pyspark 
Pyspark state.HDFSBackedStateStoreProvider:1780版本的状态不为'；不存在于加载的映射中
pysparkstreaming 
Pyspark 如何修复ADLS Gen 2中的增量位置文件
pyspark 
Pyspark 如何在palantir foundry中使用transform_df写回数据帧？
pyspark 
pysparkml支持Ann回归器吗？
pysparkneural-network 
在pyspark中，当某些时间戳为空时查找时间戳的差异
pyspark 
Pyspark PickleException:构造ClassDict（对于numpy.dtype）需要零个参数
pyspark 
Pyspark 解决：org.apache.spark.sparkeException:由于阶段失败，作业中止
pyspark 
                                       





随机文章推荐



                                                        
Xcode4 XCode 4用户脚本
xcode4 
Xcode4 .app文件在Xcode为4的新项目中显示为红色（缺失）
xcode4 
Xcode4 XCode 4中已修改文件的列表
xcode4 
Xcode4 为什么Xcode 4代码完成缓慢？
xcode4 
Xcode4 为什么我的Settings.bundle是空的？
xcode4 
Xcode4 在没有池的情况下自动释放
xcode4 
标记为缺少的Xcode4目标，但无法删除它
xcode4 
Xcode4 Xcode情节提要模式转换&；方向
xcode4modelios5 
Xcode4 重新启动后，第一次调试会话要求我向Apple Developer Tools授予权限
xcode4 
Xcode4 我怎样才能为一张照片采取行动？
xcode4 
Xcode4 恢复意外脚本删除
xcode4 
Xcode4 如何撤消在xcode中缩放的图像
xcode4 
Xcode4 使用install\u name\u工具更改动态库的路径
xcode4 
Xcode4 在'；中设置搜索字符串的最小长度；快速打开&x27；对话
xcode4


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 如何：火花纱线簇
									Apache Spark
							 
Apache spark 卡夫卡火花流式cpu使用率随时间不断增加
									Apache Spark
							 
Apache spark import happybase在pyspark shell中工作，但在spark submit中不工作
									Apache Spark
							 									Hbase
							 									Pyspark
							 
Apache spark apachespark多节点集群
									Apache Spark
							 
Apache spark Spark批量删除hbase上的记录
									Apache Spark
							 									Hbase
							 
Apache spark 节点本地与机架本地任务读取时间
									Apache Spark
							 
Apache spark sparksql中的更新查询
									Apache Spark
							 
Apache spark 使用Spark 1.6（RPC）哪个更具可扩展性：Netty还是AKKA？
									Apache Spark
							 									Akka
							 									Netty
							 
Apache spark 使用Java从SPARK向HBase表写入数据时出现安全问题
									Apache Spark
							 									Hbase
							 
Apache spark 使用Spark HBase Hortonworks连接器读取HBase需要很长时间
									Apache Spark
							 									Hbase
							 
Apache spark spark通过文件提交配置
									Apache Spark
							 
Apache spark 将RDD[Long，String，Long]转换为sql.DataFrame
									Apache Spark
							 
Apache spark 如何在客户端模式下续订Kerberos票证？
									Apache Spark
							 
Apache spark 在spark scala Velocity中添加截止日期天数字段
									Apache Spark
							 
Apache spark Spark WindowExec：没有为窗口操作定义分区—将所有数据移动到单个分区—这可能会导致严重的性能下降
									Apache Spark
							 
Apache spark 为什么Spark Sql排除Inet数据类型？
									Apache Spark
							 
Apache spark 本地Spark会话中的Spark URL无效
									Apache Spark
							 
Apache spark Spark Streaming：在>；写入记录：BatchAllocationEvent
									Apache Spark
							 
Apache spark Spark ML库
									Apache Spark
							 
Apache spark 时间列应使用什么数据类型
									Apache Spark
							 
Apache spark 如何在CSV文件中的更新行上运行流式查询？
									Apache Spark
							 
Apache spark Pyspark从文件名获取子字符串并存储为新列
									Apache Spark
							 									Pyspark
							 
Apache spark Spark 2.4.3-当数据库表架构具有数字类型时，该怎么办？
									Apache Spark
							 									Pyspark
							 
Apache spark 火花库伯内特斯
									Apache Spark
							 									Kubernetes
							 
Apache spark 如何使用Pyspark在spark中加载excel工作表？
									Apache Spark
							 									Pyspark
							 
Apache spark 火花对EMR簇芯纱线数的影响
									Apache Spark
							 
Apache spark pyspark mllib模型摘要'；ROC和x27下的区域；计算逻辑
									Apache Spark
							 									Pyspark
							 
Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号
									Apache Spark
							 									Pyspark
							 
Apache spark 无法读取csv PypSpark
									Apache Spark
							 									Pyspark
							 
Apache spark 如何在12个拼花文件中自动运行相同的聚合，然后使用PySpark将结果合并到一个表中？
									Apache Spark
							 									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Menu
Sql Server 2008
Exchange Server
D
Jira
Terminal
Magento2
Iis 7
Single Sign On
Jquery Mobile
Flutter
Windows Mobile
Liferay
Map
Sharepoint 2010
Tridion
Webstorm
Asp.net
Keyboard
Ios5
Pycharm
X86
Google Apps Script
Stripe Payments
Entity Framework
Blockchain
Http
Sed
Actions On Google
Uitableview
Parsing
Ruby On Rails 4
Security
Wix
Ms Office
Xamarin.android
Parse Platform
R
Testng
Html5 Canvas
Biztalk
Asterisk
Cloud
Ide
Printing
Virtual Machine
Xpath
Mariadb
Ibm Mobilefirst
Karate
Nativescript
Recursion
Log4net
Vector
Javascript
Sparql
Web Crawler
Android Fragments
Vbscript
Magento
Cypress
Server
Object
Compression
Android Studio
Image Processing
Virtualbox
Cloud Foundry
Xamarin.ios
Deployment
Julia
Rxjs
Microservices
File Upload
Actionscript
Sbt
Jvm
Google Calendar Api
Mongoose
Jpa
Jupyter Notebook
Isabelle
Teradata
Nginx
Localization
Db2
Notepad++
Identityserver4
Iframe
Udp
Libgdx
Asp.net Mvc 4
Azure Service Fabric
Gruntjs
Shopify
Dependencies
Xslt
EmptyTag
Outlook
Wolfram Mathematica
Mapping
Git
Oracle Apex
Coq
Blazor
Processing
Drupal
Asp.net Mvc
Google Maps Api 3
Svg
Centos
Chart.js
Vue.js
Web Services
Wso2
Teamcity
Visual Studio 2008
Memory Management
Smtp
Domain Driven Design
Cobol
Activemq
Ssh
Unix
Push Notification
Content Management System
Documentation
Windbg
Doctrine Orm
Doxygen
Unicode
Pip
Openssl
Permissions
Apache Pig
Nuget
Prolog
Vb.net
Migration
Nhibernate
Sprite Kit
Architecture
Geolocation
Keycloak
Listview
Email
Testing
Acumatica
Jquery Plugins
Java 8
Reflection
Jekyll
Open Source
Selenium Webdriver
Netty
Kdb
Video Streaming
Elm
Vaadin
Google Colaboratory
Jsf 2
Database Design
Raspberry Pi
Intellij Idea
Amazon S3
Fluent Nhibernate
Neo4j
Visual Studio
Clojure
Tags
Three.js
Transactions
Lambda
Zend Framework
Racket
Discord.py
Material Ui
Workflow
Configuration
Frameworks
Ms Access
Caching
Command Line
Windows Phone 8.1
Mqtt
Batch File
Telegram
Logic
Ssl
Sdk
String
Authentication
Antlr
Encoding
Gitlab
Winforms
Akka
Silverlight
Parallel Processing
View
Hadoop


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网