Python 如何以ORC格式将数据列表写入S3

Python 如何以ORC格式将数据列表写入S3,python,amazon-s3,orc,Python,Amazon S3,Orc,我需要将ORC格式的文件直接写入S3存储桶。该文件将是数据库查询的结果。 我知道如何将CSV文件直接写入S3,但找不到直接在ORC中写入的方法。。有什么建议吗 根据链接文档使用默认值,因为没有代码示例可供使用 df=spark.read.load(“examples/src/main/resources/users.parquet”) df.选择(“名称”、“最喜欢的颜色”).写入.保存(“名称和颜色.拼花地板”) 导入boto3 #创建一个S3客户机 s3=boto3.client('s

我需要将ORC格式的文件直接写入S3存储桶。该文件将是数据库查询的结果。 我知道如何将CSV文件直接写入S3,但找不到直接在ORC中写入的方法。。有什么建议吗

  • 根据链接文档使用默认值,因为没有代码示例可供使用

    df=spark.read.load(“examples/src/main/resources/users.parquet”)
    df.选择(“名称”、“最喜欢的颜色”).写入.保存(“名称和颜色.拼花地板”)
    
  • 导入boto3
    #创建一个S3客户机
    s3=boto3.client('s3')
    文件名='file.txt'
    bucket\u name='我的bucket'
    #使用托管上载器上载给定文件,该上载器将拆分为大文件
    #自动创建文件并并行上载部件。
    s3.上传_文件(文件名、bucket_名称、文件名)
    
  • 根据链接文档使用默认值,因为没有代码示例可供使用

    df=spark.read.load(“examples/src/main/resources/users.parquet”)
    df.选择(“名称”、“最喜欢的颜色”).写入.保存(“名称和颜色.拼花地板”)
    
  • 导入boto3
    #创建一个S3客户机
    s3=boto3.client('s3')
    文件名='file.txt'
    bucket\u name='我的bucket'
    #使用托管上载器上载给定文件,该上载器将拆分为大文件
    #自动创建文件并并行上载部件。
    s3.上传_文件(文件名、bucket_名称、文件名)
    
    不清楚您是要求代码输出ORC,还是要求代码写入AmazonS3。您当前是否有将在本地输出到ORC的代码?如果我不清楚,很抱歉。我将试图澄清我知道如何将文件上载到S3,但由于我正在编写的代码将在lambda函数中运行,因此我无法在本地编写文件,然后将其上载。我需要的是获取检索到的查询结果,将其处理为ORC格式并将其写入S3,所有这些都在内存中完成。如果我有本地存储,我想我会将文件写入本地存储,然后简单地上传,但我不能。为什么你“不能在本地写入文件,然后上传”?如果文件小于500MB,那么您可以在
    /tmp/
    中创建文件,然后将其上载到S3。因为文件的大小取决于查询结果,我不确定是否可以假定其小于500MB,所以我会再次检查。谢谢不清楚您是要求代码输出ORC,还是要求代码写入AmazonS3。您当前是否有将在本地输出到ORC的代码?如果我不清楚,很抱歉。我将试图澄清我知道如何将文件上载到S3,但由于我正在编写的代码将在lambda函数中运行,因此我无法在本地编写文件,然后将其上载。我需要的是获取检索到的查询结果,将其处理为ORC格式并将其写入S3,所有这些都在内存中完成。如果我有本地存储,我想我会将文件写入本地存储,然后简单地上传,但我不能。为什么你“不能在本地写入文件,然后上传”?如果文件小于500MB,那么您可以在
    /tmp/
    中创建文件,然后将其上载到S3。因为文件的大小取决于查询结果,我不确定是否可以假定其小于500MB,所以我会再次检查。谢谢