Python PySpark-连接到s3-将文件读取到rdd_Python_Apache Spark_Amazon S3_Pyspark - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/go/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python PySpark-连接到s3-将文件读取到rdd_Python_Apache Spark_Amazon S3_Pyspark - Fatal编程技术网

Python PySpark-连接到s3-将文件读取到rdd

python apache-spark amazon-s3 pyspark

Python PySpark-连接到s3-将文件读取到rdd,python,apache-spark,amazon-s3,pyspark,Python,Apache Spark,Amazon S3,Pyspark,我正在尝试使用pyspark连接到我的s3存储桶。代码如下： from boto.s3.connection import S3Connection AWS_KEY = '...' AWS_SECRET = '...' aws_connection = S3Connection(AWS_KEY, AWS_SECRET) bucket = aws_connection.get_bucket('activitylogs-prod') sc._jsc.hadoopConfiguration()

我正在尝试使用pyspark连接到我的s3存储桶。
代码如下：

from boto.s3.connection import S3Connection

AWS_KEY = '...'
AWS_SECRET = '...'

aws_connection = S3Connection(AWS_KEY, AWS_SECRET)
bucket = aws_connection.get_bucket('activitylogs-prod')

sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", AWS_KEY)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", AWS_SECRET)

print len(list(bucket.list()))
for key in bucket.list():
    file_name = 's3n://myBucket/'+key.name
    print file_name
    rdd = sc.textFile(file_name 
        ,'org.apache.hadoop.mapred.TextInputFormat',
        'org.apache.hadoop.io.Text',
        'org.apache.hadoop.io.LongWritable'
        )
    print rdd.count()

它抛出一个异常，表示：

textFile() takes at most 4 arguments (5 given)

以前它会抛出类似的东西：

 "s3n" not recognized

我正在使用Spark 1.6和Hadoop 2.6
我已经检查了很多线程，但在我的情况下似乎没有任何工作

任何关于如何处理这一问题的建议都将不胜感激

textFile
只接受一个路径和
minPartitions
（可选），我想你要找的是
hadoopFile
…它接受不同的格式类。
我试过使用hadoopFile，但它抛出“调用z:org.apache.spark.api.python.PythonRDD.hadoopFile时出错：java.io.IOException:scheme:s3n没有文件系统“这是Hadoop模块化的一个已知问题->您需要包含适当的文件和设置，以使其在Spark中工作……它不再是内置的

[apache spark]相关文章推荐

Apache spark 火花作业在纱线簇模式下失败 apache-spark

Apache spark 如何读取从HBase导出的序列文件 apache-spark hbase pyspark

Apache spark 正在Spark/Redshift特定查询中通过对等方重置[Amazon]（500150）连接 apache-spark amazon-redshift

Apache spark 是否建议使用卡夫卡作为真相的来源？ apache-spark cassandra apache-kafka apache-storm

Apache spark 清理火花历史记录日志 apache-spark

Apache spark 如何从Spark流脚本写入HDFS apache-spark

Apache spark 不带orderBy的Spark窗口函数 apache-spark

Apache spark 如何仅访问纱线簇中的spark日志 apache-spark

Apache spark 向spark数据帧添加新列 apache-spark pyspark

Apache spark Spark streaming每小时00:00运行处理 apache-spark

Apache spark spark s3n支持端点与s3a类似吗 apache-spark hadoop amazon-s3

Apache spark 在EMR上运行spark，一些作业状态显示；“未定义”； apache-spark

Apache spark PySpark/Glue：当使用日期列作为分区键时，它总是转换为字符串吗？ apache-spark pyspark

Apache spark 是否可以将Excel文件从Apache Zeppellin读取到PySpark或熊猫数据帧？ apache-spark pyspark

Apache spark 在PySPARK中创建一个列，其中包含从所有其他列创建的值作为JSON apache-spark

Apache spark 是否可以在不将tar.gz文件带到本地系统的情况下，在HDFS上解压tar.gz文件并将其放在不同的HDFS文件夹中 apache-spark unix hadoop

Apache spark SparkException:作业2已取消，因为SparkContext已关闭，Spark正在处理大型数据集 apache-spark pyspark

Apache spark 将pyspark列转换为列表 apache-spark pyspark

Apache spark 无法识别谓词'；列<；b'；。皮斯帕克三角洲湖 apache-spark pyspark

Apache spark 矢量化以长格式来源的高维数据 apache-spark

随机文章推荐

[python]相关推荐

Python twisted loopingcall访问类变量
Python

Python 字典中未保留数据类型
Python

从.BAT文件运行Python脚本，将.BAT文件名作为输入
Python Windows File Batch File

Python 如何模拟流式API？
Python Api Node.js

Python 不同的数据类型
Python Sql Sqlite

Python-dpkt包分析
Python Tcp

Python 若文件存在，使用decorators检索jsondata，否则运行方法，然后将输出存储为json？
Python Json

在python解释器中运行shell命令
Python Bash

Python Lambda/列表理解用于添加
Python Lambda

Python 交叉编译共享库赢得'；t链接到libstdc++；。所以
Python C++ Arm

Python 通过大文件解析，计算唯一字符串的数量？
Python Python 3.x

Python 在matplotlib中绘制多条三维线
Python Matplotlib

Python 值错误：使用numpy和Bessel函数将数组元素设置为序列
Python Arrays Python 3.x Numpy

Python 进行循环以显示空白表单或预填表单
Python Django Forms

Python 这些列以数字结尾
Python Pandas

Python正则表达式返回括号内字符串的位置
Python Regex

Python 返回列表的第一个数字
Python List

Python 如何使用单个3索引列表而不是3个嵌套循环进行迭代？
Python Loops

Python 使用；“一热”；随机森林中的编码因变量
Python Machine Learning Scikit Learn

Python 使用代理链接浏览被阻止的网站
Python Web Scraping

Python 使用Pandas接口继续上载到BigQuery
Python Pandas Google Bigquery

Python Discord.py是否更改了其API？
Python Python 3.x Discord Discord.py

Python 无法将类型字符[]强制转换为jsonb django迁移
Python Django Model Migration

Python 在具有索引输出的函数之间查找_？
Python

Python 旋转在Pygame中不起作用-汽车游戏
Python

Python 编写一个文本冒险游戏
Python

使用库'进行单元测试；单元测试&x27；在Python 3中
Python Python 3.x Unit Testing

Python 在子批次的第三行添加第二个散点
Python

Python 为什么在此列表上调用np.array（）会生成一个3d数组而不是2d数组？
Python Numpy

Python 处理括号的正则表达式
Python Regex

Tags

Javafx Vbscript Debian Linq To Sql Youtube Api Dotnetnuke Swift Formatting Umbraco Elm Isabelle Alfresco Ecmascript 6 Dataframe Scikit Learn Unix Stored Procedures Tkinter C# 4.0 Programming Languages Netbeans Servlets Sockets Reference Yaml Apache Zookeeper Struts2 Actionscript Json Apache Flink Compilation Chef Infra Url Deep Learning Pytorch Nosql C++11 Ip Math Azure Sql Database Angular Material Google Cloud Storage Gmail Woocommerce Phpstorm Asp.net Mvc 3 Scroll Nuget Robotframework Openerp Doctrine Chart.js Big O Ssrs 2008 Process Jboss Ajax Couchbase Uiview Ionic2 Jekyll Tfs Vagrant Phpunit Python Sphinx Gruntjs Sencha Touch 2 Ruby Ipad Numpy Itext Pentaho Reporting Services List Networking Rest Protocol Buffers Nsis Hibernate Tabs Drupal 6 Jakarta Ee Discord Electron Notifications Git Embedded Opengl Github Grid 3d Perforce Antlr Web Crawler Jenkins .htaccess .net 4.0 Linker Graphql File Io Select Cmd Opencl Nest Hyperledger Fabric Csv Combobox Jquery Mobile Permissions Blazor Dll Solr Excel Formula Webstorm Phantomjs Time Templates Functional Programming Random Asp.net Core Anaconda Entity Framework Core Batch File Common Lisp Ada Angularjs Doxygen Kibana Stream Google Maps Php Service Parsing Soap Encoding Ionic Framework Data Structures Visual Studio 2010 Wso2 Azure Scripting Llvm Windows 10 React Native Hadoop Cloud Openstack Snmp Omnet++ Smalltalk Keras Streaming Oracle11g Tableau Api Tcl Jquery Ui Amazon Cloudformation Cobol Primefaces Apache Camel Salesforce Colors Configuration Flask Rspec Google Analytics Spring Cloud Requirejs Autohotkey Zend Framework2 Gridview Mercurial Iframe Signalr Terraform Kernel Reflection Spring Udp Oracle Apex Swing Ruby On Rails Webpack Frameworks Arm Qt4 Geolocation Awk Neural Network Cygwin Asp Classic Visual C++ Osgi Jupyter Notebook Command Line Tags .net Windows Phone 7 Discord.js Cakephp Rally

Copyright © 2024. All Rights Reserved by - Fatal编程技术网