Apache spark 如何打印PythonTransformedStream
我正在尝试运行集成AWS Kinesis stream和ApacheSpark的单词计数示例。随机线以固定间隔进行运动Apache spark 如何打印PythonTransformedStream,apache-spark,pyspark,spark-streaming,amazon-kinesis,Apache Spark,Pyspark,Spark Streaming,Amazon Kinesis,我正在尝试运行集成AWS Kinesis stream和ApacheSpark的单词计数示例。随机线以固定间隔进行运动 lines = KinesisUtils.createStream(...) 当我提交申请时,lines.pprint()我没有看到任何打印的值 试图打印行对象,我看到 如何打印PythonTransformedDStream对象?并检查是否收到数据 我确信没有凭据问题,如果我使用错误的凭据,我将获得访问异常 添加代码以供参考 import sys from pyspark
lines = KinesisUtils.createStream(...)
当我提交申请时,lines.pprint()
我没有看到任何打印的值
试图打印行
对象,我看到
如何打印PythonTransformedDStream
对象?并检查是否收到数据
我确信没有凭据问题,如果我使用错误的凭据,我将获得访问异常
添加代码以供参考
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kinesis import KinesisUtils, InitialPositionInStream
if __name__ == "__main__":
sc = SparkContext(appName="SparkKinesisApp")
ssc = StreamingContext(sc, 1)
lines = KinesisUtils.createStream(ssc, "SparkKinesisApp", "myStream", "https://kinesis.us-east-1.amazonaws.com","us-east-1", InitialPositionInStream.LATEST, 2)
# lines.saveAsTextFiles('/home/ubuntu/logs/out.txt')
lines.pprint()
counts = lines.flatMap(lambda line: line.split(" "))
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b)
counts.pprint()
ssc.start()
ssc.awaitTermination()
由于lines.pprint()
不打印任何内容,请确认执行:
ssc.start()
ssc.awaitTermination()
如本例所述:
正确配置环境后,pprint()
应该可以工作:
数据流上的输出操作
print()
-在运行流应用程序的驱动程序节点上打印数据流中每批数据的前十个元素。这
对于开发和调试非常有用。这就是所谓的Python API
Python API中的pprint()
由于lines.pprint()
不打印任何内容,请确认执行:
ssc.start()
ssc.awaitTermination()
如本例所述:
正确配置环境后,pprint()
应该可以工作:
数据流上的输出操作
print()
-在运行流应用程序的驱动程序节点上打印数据流中每批数据的前十个元素。这
对于开发和调试非常有用。这就是所谓的Python API
Python API中的pprint()
我终于让它工作了 我提到的示例代码有一个提交应用程序的错误命令 我使用的正确命令是
$ bin/spark-submit --jars external/spark-streaming-kinesis-asl_2.11-2.1.0.jar --packages org.apache.spark:spark-streaming-kinesis-asl_2.11:2.1.0 /home/ubuntu/my_pyspark/spark_kinesis.py
我终于让它工作了 我提到的示例代码有一个提交应用程序的错误命令 我使用的正确命令是
$ bin/spark-submit --jars external/spark-streaming-kinesis-asl_2.11-2.1.0.jar --packages org.apache.spark:spark-streaming-kinesis-asl_2.11:2.1.0 /home/ubuntu/my_pyspark/spark_kinesis.py
我已经尝试过网络字数计算程序,并且
pprint
正在为此工作,所以我想,环境配置是适当的。另外,在我的代码末尾有提到的两行代码。程序一直运行到我按下ctrl+c.@ArunDhaJ-您是否安装了netcat服务器()并使用$nc-lk9999
执行了它?您是否在netcat控制台中输入了文字,这些文字将被输入到您的spark streaming程序中?我使用nc
尝试了网络文字计数程序,并成功执行了该程序。我只面临亚马逊运动整合的问题。我正在将随机句子发布到kinesis stream,但是我的spark客户端没有选择并处理它。我已经尝试了网络字数计算程序,并且pprint
正在为此工作,所以我想,环境配置是适当的。另外,在我的代码末尾有提到的两行代码。程序一直运行到我按下ctrl+c.@ArunDhaJ-您是否安装了netcat服务器()并使用$nc-lk9999
执行了它?您是否在netcat控制台中输入了文字,这些文字将被输入到您的spark streaming程序中?我使用nc
尝试了网络文字计数程序,并成功执行了该程序。我只面临亚马逊运动整合的问题。我正在将随机句子发布到kinesis stream,但是我的spark客户端没有选择并处理它。不确定为什么要提交JAR和包?不确定为什么要提交JAR和包?