Python 保存批次'；pyspark中的数据_Python_Pyspark_Spark Streaming - Fatal编程技术网

Python 保存批次'；pyspark中的数据

python pyspark

Python 保存批次'；pyspark中的数据,python,pyspark,spark-streaming,Python,Pyspark,Spark Streaming,我需要从批次中积累数据一段时间，以便后期处理。我使用的是Spark 1.6.3。我需要以（标记，[[time，value]，…]）的形式累积它们。到目前为止，我已经尝试了updateStateByKey： time = [0] def updateFunc(new_values, last_sum,time): time[0] += 5 if time == 10: time = 0 return None return (last_s

我需要从批次中积累数据一段时间，以便后期处理。我使用的是Spark 1.6.3。
我需要以

（标记，[[time，value]，…]

）的形式累积它们。到目前为止，我已经尝试了

updateStateByKey

：

time = [0]
def updateFunc(new_values, last_sum,time):
    time[0] += 5
    if time == 10:
        time = 0
        return None
    return (last_sum or []) + new_values

data = lines.flatMap(lambda line: line.split(" "))\
                  .map(lambda word: (word, ['t','t1'])) \
                  .updateStateByKey(lambda x,y :updateFunc(x,y,time))
data.pprint()

正在添加数据。但是，尝试在10秒后刷新数据无效。（我做错了）

我还尝试使用

窗口：
data= lines.flatMap(lambda lime: line.split(' ')\
    .map(lambda tag: (tag: ['time', 'value']))\
    .window(10, 2)\
    .reduceByKey(lambda x,y : y + x)`


但是，这会产生一个一维的长列表。这是没有用的。
有线索吗？多谢各位
items = lines.flatMap(lambda x: list(x)).map(lambda x: (x, [('time', 'value')]))
counts = items.reduceByKeyAndWindow(lambda x, y: x + y, invFunc=None, windowDuration=3, slideDuration=2)

试试这个
试试这个




[pyspark]相关文章推荐



                                                        
Pyspark 如何在spark中的空数据框中插入值
pyspark 
从PySpark DataFrame列中删除元素
pyspark 
Pyspark 请求的身份验证作用域不足
pyspark 
如何在pyspark的rdd中实现group by？
pyspark 
如何从PySpark中的date列获取一周的第一个日期？
pyspark 
如何替换PySpark中另一列中缺少的值？
pyspark 
如何在pyspark datafarme中查找重复列值
pyspark 
如何使用pyspark graphframe pregel API实现周期检测
pyspark 
pyspark udf返回值
pyspark 
在Anaconda中通过Pyspark从bucket读取csv文件
pysparkgoogle-cloud-storage 
'；数据帧'；对象在pyspark中不可调用
pyspark 
从PySpark数据帧中删除na行索引
pyspark 
如何在pyspark数据帧上应用Word Net Lemmatizer？
pyspark 
Pyspark:在连接同一列上的数据帧时，引用不明确
pyspark 
如何在PySpark函数中使用Pickle空间模型
pyspark 
Pyspark 在同一个窗口函数内多次计算，洗牌次数是多少
pyspark 
pyspark数据帧中的正则表达式
pyspark 
Pyspark 旋转所有行的Pypark
pyspark 
Pyspark ADLS Gen 1中增量格式文件的外部表
pyspark 
Pyspark 数据帧'；对象没有属性'；得到
pyspark 
                                       





随机文章推荐



                                                        
XMPP客户端如何选择身份验证机制？
xmpp 
如何让jenkins通过xmpp接受命令？
xmppjenkins 
如何确定XMPP中的联系人请求被接受或拒绝？
xmpp 
创建用于测试的测试XMPP客户端
xmpp 
Xmpp 从源代码安装plone附加组件，完整新手指南？
xmppplone 
指示存在的XMPP组件
xmpp 
Xmpp 带明火和波什的闸门连接问题
xmpp 
更改用户'；在xmpp上的ejabberd中的密码
xmpp 
Xmpp mod_事件贡献模块无法与Ubuntu14.04中的ejabberd一起工作
xmpp 
两个客户端是否必须相互订阅'；为了在XMPP中交换消息，是否存在？
xmpp 
Xmpp 在聊天盒库JSXC.js（MAM-0313）上未正确呈现存档邮件
xmpp 
Xmpp 无法使用strophe连接到eJabberd服务器
xmpp


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python pycassa-通过二级索引删除多行？
									Python
							 									Cassandra
							 
Python 无法安装pyside和QT Mac OSX 10.9
									Python
							 									Macos
							 									Qt
							 
Python-通过输入框发送数据
									Python
							 
在db中保存数据的最佳方法是“由”类数据—Python-Orm-Networkx
									Python
							 									Database
							 									Orm
							 									Sqlalchemy
							 
Python 马亚维：imshow问题
									Python
							 
Python 如何检查是否按了enter键
									Python
							 									Tkinter
							 
Python 如何在OpenERP7中使用oe_看板_列表_许多样式？
									Python
							 									Xml
							 									Openerp
							 
Python Tkinter RPy2 GUI问题
									Python
							 									R
							 									User Interface
							 									Tkinter
							 
Python paramiko挂起意外的连接断开
									Python
							 
Python在何处放置while循环wx.Python systray
									Python
							 									Loops
							 									Wxpython
							 
Python 使用自定义渐变的矩形颜色填充序列
									Python
							 									Matplotlib
							 
Python Tkinter图像显示为空白
									Python
							 									Tkinter
							 
django、python、postgres和web部署
									Python
							 									Django
							 									Ubuntu
							 									Nginx
							 
Python Pyside2 QAction会自动触发一次，但不会在用户单击菜单时触发
									Python
							 									Python 3.x
							 
给定一个带有变量的字符串模式，如何使用python匹配和查找变量字符串？
模式=世界！{} 
text=你好，世界！这是python
									Python
							 									Regex
							 
Python jsonschema验证两个不同的json响应
									Python
							 									Json
							 
Python 创建一个新列，该列是一行中有多少条目满足数据帧中每一行的条件的计数
									Python
							 									Pandas
							 
Python DataParallel multi-gpu运行时错误：chunk至少需要一维张量
									Python
							 									Pytorch
							 
Python 编写一个函数来计算单位向量
									Python
							 
python—从文件中提取特定文本数据的正则表达式
									Python
							 
Python 微分方程的奥丁和辛解法
									Python
							 									Math
							 
Python 运行selenium自动下载任务后，quit命令不起作用
									Python
							 									Selenium
							 									Firefox
							 
Python类覆盖以前的初始化，而不是创建新的初始化
									Python
							 									Class
							 
Python的resource.RLIMIT_VMEM（或resource.RLIMIT_AS）返回的两个数字是什么意思？
									Python
							 									Memory
							 
Python 滚动函数不会打印所有值
									Python
							 									Pandas
							 
Python Matplotlib：逆仿射变换以获得具有不同x和y限制的相等纵横比
									Python
							 									Numpy
							 									Matplotlib
							 
Python 使用pandas中多个csv文件的数据计算z值
									Python
							 									Pandas
							 									Dataframe
							 
Python Selenium未通过XPath查找元素（尽管在浏览器中可见）
									Python
							 									Html
							 									Selenium
							 									Xpath
							 
Python 从dataframe列的所有行中删除%symbol，并将整个列值转换为浮点值
									Python
							 									String
							 									Pandas
							 
Python 计算公式中一行与所有其他行的差值之和
									Python
							 									Pandas
							 									Lambda
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Lambda
Xml
Sdk
Angular Material
E Commerce
File Upload
Windows Installer
Hash
System Verilog
Exchange Server
Http
Next.js
Oop
Matplotlib
Wordpress
Parsing
Ag Grid
Merge
Amazon Dynamodb
Google Cloud Dataflow
Vaadin
Sapui5
Ipad
Laravel 5
Jsf
Firebase
Openlayers
Notepad++
Big O
Drop Down Menu
Linker
Python 3.x
D3.js
Yocto
Android Emulator
Pascal
Express
Jasper Reports
Tsql
C# 3.0
Object
Keyboard
Requirejs
Autodesk Forge
Map
Macos
Asp.net Core Mvc
Jetty
Laravel 4
Jpa
Entity Framework
Udp
Here Api
Xamarin.forms
Jsp
Couchbase
Web Crawler
Aframe
Kernel
Libgdx
Graphql
Certificate
Migration
Protractor
Webrtc
Xcode
Ios4
Ant
Session
Animation
Monitoring
Inheritance
Actionscript
Localization
Windows Phone 7
Linux Kernel
Spring Boot
Grafana
Sqlite
Subsonic
Titanium
Ruby On Rails 4
Floating Point
Sorting
Reflection
Objective C
Gremlin
Windbg
Ruby On Rails 3.1
Junit
Kotlin
Atom Editor
Azure Sql Database
Notifications
Terraform
Ssrs 2008
Salesforce
Statistics
Discord
Datetime
Utf 8
Smtp
Unicode
Debian
If Statement
Pine Script
Fluent Nhibernate
Command Line
Ethereum
Dotnetnuke
Prolog
Snmp
Discord.js
Gps
Inno Setup
Numpy
Ide
Fonts
Sockets
Memory Management
Hive
Flutter
Apache Nifi
Jira
Netsuite
File
Unity3d
Aem
Mvvm
Struct
Oracle10g
Delphi
String
Jms
Rabbitmq
Compilation
Telegram
Vhdl
Join
Encryption
Chart.js
Collections
Seo
Class
Jqgrid
Windows Phone 8.1
Matlab
Jenkins
Iframe
3d
Xna
Spring Integration
Grails
Omnet++
Amazon Cloudformation
Dojo
Scikit Learn
Dictionary
Sms
Phpmyadmin
Google App Engine
Openstack
Routing
Cocos2d Iphone
Maven 2
Workflow
Python Sphinx
Xampp
Ember.js
Pandas
Virtual Machine
Office Js
Ansible
Snowflake Cloud Data Platform
Akka
Phantomjs
Sprite Kit
Stream
Canvas
Permissions
Uitableview
Reference
Kibana
Hibernate
Wxpython
Ios7
Soap
Layout
Solr
Swift
Types
Fullcalendar
Openlayers 3
For Loop
Internet Explorer 8
Scripting
Dynamics Crm
Dart
Jquery Ui
Makefile
Serialization


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网