Python 如何将spark流媒体保存到本地pc和hdfs？_Python_Pyspark_Apache Kafka_Hdfs_Spark Streaming - Fatal编程技术网

Python 如何将spark流媒体保存到本地pc和hdfs？

python pyspark apache-kafka

Python 如何将spark流媒体保存到本地pc和hdfs？,python,pyspark,apache-kafka,hdfs,spark-streaming,Python,Pyspark,Apache Kafka,Hdfs,Spark Streaming,尝试将此数据流化，但无法将该数据以元组形式保存在本地磁盘或hdfs中。从pyspark导入SparkConf，SparkContext from operator import add import sys from pyspark.streaming import StreamingContext from pyspark.streaming.kafka import KafkaUtils ## Constants APP_NAME = "PythonStreamingDirectKafka

尝试将此数据流化，但无法将该数据以元组形式保存在本地磁盘或hdfs中。从pyspark导入SparkConf，SparkContext

from operator import add
import sys
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
## Constants
APP_NAME = "PythonStreamingDirectKafkaWordCount"
##OTHER FUNCTIONS/CLASSES

def main():
    sc = SparkContext(appName="PythonStreamingDirectKafkaWordCount")
    ssc = StreamingContext(sc, 2)

    brokers, topic = sys.argv[1:]
    kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers})
    lines = kvs.map(lambda x: x[1])
    counts = lines.flatMap(lambda line: line.split(" ")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a+b)
    def process(RDD):
        #RDD.pprint()
        kvs2=RDD.map()
        kvs2.saveAsTextFiles('path')

    #kvs.foreachRDD(lambda x: process(x))
    #kvs1=kvs.map(lambda x: x)
    kvs.pprint()

    kvs.saveAsTextFiles('path','txt')

    ssc.start()
    ssc.awaitTermination()
if __name__ == "__main__":

   main()

在这一行：

 kvs.saveAsTextFiles('path','txt')

您存储的是原始流，而不是带有元组的流。而是从计数中存储：

counts.saveAsTextFiles('path','txt')
请注意保存在“path”中提供的目录下的工作节点上的文件
pySpark API不支持保存到HDFS。对于最新版本，其他语言确实有saveAsHadoopFiles。链接到

[pyspark]相关文章推荐

Pyspark Spark SQL PypSpark将表中的值更新为表中的另一个值 pyspark

Pyspark Livy在计算结束前返回 pyspark

pyspark:连接两个数据帧时发生AnalysisException pyspark

如何使用Pyspark中的kmeans将原始观测值与预测的星团正确标记？ pyspark

Bing地图-如何使用dataframe在pyspark中使用路由api pyspark

Pyspark 矢量汇编行为与密集数据聚合 pyspark

Pyspark:添加新列的行和值超过255列 pyspark

PySpark:Dataframe:Numeric+；Null列值导致Null而不是数值 pyspark

Pyspark 使用迭代Spark数据帧创建的内存错误 pyspark

Pyspark PypSpark多工况多工况多工况 pyspark

Pyspark SparkSQL（Databricks）：将数据插入由不同角色创建的雪花表中 pyspark snowflake-cloud-data-platform

Pyspark中的DOB场 pyspark

AWS SageMaker笔记本列表表使用boto3和PySpark pyspark amazon-dynamodb

Pyspark模式-同时定义和推断 pyspark

Pyspark Py4JJavaError:调用o27.sessionState时出错 pyspark

删除pyspark中任何列中具有特定值的行 pyspark

Pyspark 带时区的Pypark时间戳 pyspark

在pyspark中读取tsv文件 pyspark

如何使用pyspark在Amazon EMR中跟踪长期作业的进度？ pyspark

当多列包含空值时pyspark中的加权平均计算 pyspark

随机文章推荐

带x264enc的gstreamer多路复用 gstreamer

如何使用gstreamer从mp4（h264/aac）到mp4（h264/mp3）进行代码转换和大小调整？ gstreamer

将gstreamer CPU使用情况模拟为将文件RC作为RTSP传输到udpsink gstreamer

Gstreamer 在管道中使用autoaudiosink，播放没有声音的媒体 gstreamer

Gstreamer 如何在c中使用Gstream管道将PCM文件编码为MP3或AC3 gstreamer

gstreamer保存的文件没有音频 gstreamer

我需要一些关于GStreamer中caps的帮助 gstreamer

[python]相关推荐

Python EasyGui：在文本框中返回用户输入
Python

让django呈现通过上下文参数传递的python生成的html？
Python Html Django

Python 使用子parser时，如何使argparse参数成为可选参数？
Python

Python '；str'；对象没有属性'；p'；使用beautifulsoup
Python Web Crawler

Python Django OneToOne配置文件/用户关系未保存
Python Django Authentication Django Models

Python 基于类别筛选公司
Python Django Django Models

Python Django POST处理程序接收的JSON与我发送的不同
Python Json Django

Python 从igraph中的邻接矩阵构造图
Python

如何强制python指向子级甚至父级调用？
Python Oop

Python 如何使用Gtk StackSwitcher的键盘快捷键？
Python User Interface Gtk

关于pythonif语句的问题
Python Numpy If Statement

Python Keras LSTM，时间步长是否等于1，就像将LSTM转换为MLP一样？
Python Tensorflow Keras Deep Learning

Python列差异
Python Pandas

pythongurobi:addcontrols用于循环中的每个步骤
Python

Python 删除链表指定索引范围内的项
Python

如何使用python获得具有条件的序列计数（在fasta中）？
Python

Python 如何在列表中仅选择具有序列名称的列
Python Pandas List

Python 无法创建包含日期范围和多列的数据框
Python Pandas

Python 我无法理解为什么这个线程情况没有'；t工作<；螺纹锁紧不'；t work>；
Python Multithreading Concurrency

这个小小的Tkinter程序在Python2和Python3中工作，但是为什么在Python3中会出现奇怪的行为呢？
Python Python 3.x Tkinter

是否有类似于matlab的python语法用于选择行和列？
Python Python 3.x List Matlab Syntax

Python 在Django中使用模型方法的自定义模型管理器
Python Django Django Models

Python打印（项目）不'；不显示任何输出
Python Regex

Python 为什么这个else语句没有返回False？
Python Arrays

SyntaxError:在Linux上部署lib/python3.8/site-packages/sql_server/pyodbc/base.py django时语法无效
Python Sql Server Django Ubuntu

Python 如何动态生成外部CSS？
Python Http Flask Server

Python 向seaborn 2D直方图添加正态分布
Python Matplotlib Plot

Python 为什么pytorch的autoencoder教程会更改嵌入层输出的视图？
Python Pytorch

Python mnist CNN VALUEMERROR预期最小值ndim=4，发现ndim=3。收到完整形状：[32,28,28]
Python Tensorflow Machine Learning Keras

Python 无法配置Selenium+；边缘+；雨衣
Python Macos Selenium

Tags

Vaadin Visual Studio 2012 Heroku Magento2 Openstack Websocket Excel Formula Youtube Api Matlab Mips Akka Linux Fortran Linq To Sql Primefaces Verilog Amazon Web Services Aframe Opengl Cuda Operating System Windows Store Apps Jestjs Jdbc Raspberry Pi Object Bison Mfc Jsf 2 Mdx Itext Mpi C Linq Symfony Logstash Menu Vagrant Sql Server 2008 R2 Autodesk Forge Dynamics Crm 2011 Coffeescript Cookies Git Angular6 Soap Django Sql Leaflet Tags Smalltalk Web Services Umbraco Eclipse Rcp Sails.js Pointers Python Build Triggers Swift3 Jhipster Ip Spring Mvc Antlr4 Gridview Function Mule Navigation Dynamic Makefile Node.js Unit Testing Swift2 Binding Push Notification Lambda Geometry Plsql Asp.net Web Api Ssl Boost Eclipse Compression Gitlab Xpages Templates Gruntjs Protocol Buffers Emacs Kotlin Checkbox Time Imagemagick Caching Sorting Datetime Pdf Assembly Google Analytics Plugins Wix Vim Xquery Chef Infra Sharepoint 2010 Recursion Visual Studio Code Serialization Tcl Rdf Wcf Youtube Twitter Acumatica Windows Mobile Asp Classic Arangodb Perforce Passwords Delphi Oauth Uitableview C++ Cli Prestashop Ios7 Rest Prolog Coldfusion Ssis Actionscript 3 Pagination Project Management Windows 10 Z3 Amazon Dynamodb Artifactory Logging Jqgrid File Io Database Uwp Colors Selenium Webdriver Apache Pig Common Lisp Paypal Cmd Gis Shiny Amp Html Discord.js Spotify Maven 2 Haskell Azure Sql Database Solr Salesforce Jasmine C# 3.0 Openid Wxpython Azure Data Factory Kentico Scala Actionscript Cloud Plone Amazon Cloudformation Monitoring Datatables Cakephp Codeigniter Windows Services Doxygen Kdb Jquery Plugins Mercurial Gmail Openshift Exception Handling Ipad Android Ndk Google Maps Api 3 Jsp Sbt Search Kendo Ui Ibm Mobilefirst Http Nunit Aurelia Cocoa Microsoft Graph Api Map Clearcase Rxjs Xaml Neo4j Vmware Vb6 Sed

Copyright © 2024. All Rights Reserved by - Fatal编程技术网