Numpy 使用pyspark从s3读取流数据_Numpy_Amazon Web Services_Amazon S3_Apache Spark_Pyspark

Numpy 使用pyspark从s3读取流数据

numpy amazon-web-services amazon-s3 apache-spark pyspark

Numpy 使用pyspark从s3读取流数据,numpy,amazon-web-services,amazon-s3,apache-spark,pyspark,Numpy,Amazon Web Services,Amazon S3,Apache Spark,Pyspark,我想利用python极其简单的文本解析和函数编程功能，并利用numpy和scipy等科学计算库的丰富功能，因此我想使用pyspark完成一项任务我希望在开始时执行的任务是从一个bucket中读取，其中有文本文件作为流的一部分写入。有人能粘贴一段代码片段，说明如何使用pyspark从s3路径读取流数据吗？直到最近，我还以为只有使用scala和java才能做到这一点，但今天我才发现，从spark 1.2开始，pyspark中也支持流媒体，但我不确定是否支持S3流媒体我在scala中使用的方法是将

我想利用python极其简单的文本解析和函数编程功能，并利用numpy和scipy等科学计算库的丰富功能，因此我想使用pyspark完成一项任务

我希望在开始时执行的任务是从一个bucket中读取，其中有文本文件作为流的一部分写入。有人能粘贴一段代码片段，说明如何使用pyspark从s3路径读取流数据吗？直到最近，我还以为只有使用scala和java才能做到这一点，但今天我才发现，从spark 1.2开始，pyspark中也支持流媒体，但我不确定是否支持S3流媒体

我在scala中使用的方法是将其作为HadoopTextFile读入，并使用配置参数设置aws密钥和机密。我将如何在pyspark中执行类似的操作

任何帮助都将不胜感激

提前感谢。

查看文档中的“基本来源”部分：

我相信你想要像这样的东西

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext('local[2]', 'my_app')
ssc = StreamingContext(sc, 1)

stream = ssc.textFileStream('s3n://...')