Pandas 使用pyarrow从s3读取csv文件

Pandas 使用pyarrow从s3读取csv文件,pandas,aws-lambda,pyarrow,Pandas,Aws Lambda,Pyarrow,我想读取csv文件位于s3桶使用pyarrow,并将其转换为拼花地板到另一个桶。 我在从s3读取csv文件时遇到问题。我尝试读取以下代码,但失败。pyarrow支持从s3读取csv吗 from pyarrow import csv s3_input_csv_path='s3://bucket1/0001.csv' table=csv.read_csv(s3_input_csv_path) 这是投掷错误 “errorMessage”:“无法打开本地文件's3://bucket1/0001.cs

我想读取csv文件位于s3桶使用pyarrow,并将其转换为拼花地板到另一个桶。 我在从s3读取csv文件时遇到问题。我尝试读取以下代码,但失败。pyarrow支持从s3读取csv吗

from pyarrow import csv

s3_input_csv_path='s3://bucket1/0001.csv'
table=csv.read_csv(s3_input_csv_path)
这是投掷错误 “errorMessage”:“无法打开本地文件's3://bucket1/0001.csv',错误:没有此类文件或目录”


我知道我们可以使用boto3读取csv文件,然后使用pandas将其转换为数据帧,最后使用pyarrow将其转换为拼花地板。但在这种方法中,还需要将pandas添加到包中,使包大小超过与pyarrow一起使用时lambda的250 mb限制。

尝试将文件句柄传递给
pyarrow.csv.read\u csv
,而不是S3文件路径

请注意,
pyarrow
的未来版本将具有内置的S3支持,但我不确定时间线(我在这里提供的任何答案都将随着StackOverflow的性质而迅速过时)

AWS有一个项目()帮助Pandas/PyArrow及其服务之间的集成

CSV读取示例:

import awswrangler as wr

df = wr.s3.read_csv(path="s3://...")

看起来更像是FileNotFound错误,这取决于Pyarrow是否有权限读取您的虚拟机?感谢您的响应…我收到了此错误。[错误]OSError:传递的非文件路径:s3://bucket1/0001.csv回溯(最后一次调用):文件“/var/task/lambda_function.py”,第12行,在lambda_handler中,s3存储桶中是否有该文件?
import awswrangler as wr

df = wr.s3.read_csv(path="s3://...")