Numpy 使用pyspark从s3读取流数据

Numpy 使用pyspark从s3读取流数据,numpy,amazon-web-services,amazon-s3,apache-spark,pyspark,Numpy,Amazon Web Services,Amazon S3,Apache Spark,Pyspark,我想利用python极其简单的文本解析和函数编程功能,并利用numpy和scipy等科学计算库的丰富功能,因此我想使用pyspark完成一项任务 我希望在开始时执行的任务是从一个bucket中读取,其中有文本文件作为流的一部分写入。有人能粘贴一段代码片段,说明如何使用pyspark从s3路径读取流数据吗?直到最近,我还以为只有使用scala和java才能做到这一点,但今天我才发现,从spark 1.2开始,pyspark中也支持流媒体,但我不确定是否支持S3流媒体 我在scala中使用的方法是将

我想利用python极其简单的文本解析和函数编程功能,并利用numpy和scipy等科学计算库的丰富功能,因此我想使用pyspark完成一项任务

我希望在开始时执行的任务是从一个bucket中读取,其中有文本文件作为流的一部分写入。有人能粘贴一段代码片段,说明如何使用pyspark从s3路径读取流数据吗?直到最近,我还以为只有使用scala和java才能做到这一点,但今天我才发现,从spark 1.2开始,pyspark中也支持流媒体,但我不确定是否支持S3流媒体

我在scala中使用的方法是将其作为HadoopTextFile读入,并使用配置参数设置aws密钥和机密。我将如何在pyspark中执行类似的操作

任何帮助都将不胜感激

提前感谢。

查看文档中的“基本来源”部分:

我相信你想要像这样的东西

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext('local[2]', 'my_app')
ssc = StreamingContext(sc, 1)

stream = ssc.textFileStream('s3n://...')