Pandas 使用pyarrow从s3读取csv文件_Pandas_Aws Lambda_Pyarrow

Pandas 使用pyarrow从s3读取csv文件

pandas aws-lambda

Pandas 使用pyarrow从s3读取csv文件,pandas,aws-lambda,pyarrow,Pandas,Aws Lambda,Pyarrow,我想读取csv文件位于s3桶使用pyarrow，并将其转换为拼花地板到另一个桶。我在从s3读取csv文件时遇到问题。我尝试读取以下代码，但失败。pyarrow支持从s3读取csv吗 from pyarrow import csv s3_input_csv_path='s3://bucket1/0001.csv' table=csv.read_csv(s3_input_csv_path) 这是投掷错误 “errorMessage”：“无法打开本地文件's3://bucket1/0001.cs

我想读取csv文件位于s3桶使用pyarrow，并将其转换为拼花地板到另一个桶。我在从s3读取csv文件时遇到问题。我尝试读取以下代码，但失败。pyarrow支持从s3读取csv吗

from pyarrow import csv

s3_input_csv_path='s3://bucket1/0001.csv'
table=csv.read_csv(s3_input_csv_path)

这是投掷错误 “errorMessage”：“无法打开本地文件's3://bucket1/0001.csv'，错误：没有此类文件或目录”

我知道我们可以使用boto3读取csv文件，然后使用pandas将其转换为数据帧，最后使用pyarrow将其转换为拼花地板。但在这种方法中，还需要将pandas添加到包中，使包大小超过与pyarrow一起使用时lambda的250 mb限制。

尝试将文件句柄传递给

pyarrow.csv.read\u csv

，而不是S3文件路径

请注意，

pyarrow

的未来版本将具有内置的S3支持，但我不确定时间线（我在这里提供的任何答案都将随着StackOverflow的性质而迅速过时）

AWS有一个项目（）帮助Pandas/PyArrow及其服务之间的集成

CSV读取示例：

import awswrangler as wr

df = wr.s3.read_csv(path="s3://...")

看起来更像是FileNotFound错误，这取决于Pyarrow是否有权限读取您的虚拟机？感谢您的响应…我收到了此错误。[错误]OSError:传递的非文件路径：s3://bucket1/0001.csv回溯（最后一次调用）：文件“/var/task/lambda_function.py”，第12行，在lambda_handler中，s3存储桶中是否有该文件？

import awswrangler as wr

df = wr.s3.read_csv(path="s3://...")