如何将分区的Apache Arrow或拼花地板文件读/写进/出Julia

如何将分区的Apache Arrow或拼花地板文件读/写进/出Julia,julia,parquet,apache-arrow,Julia,Parquet,Apache Arrow,我正在尝试将一个微不足道的数据集读写到Julia中。数据集是取自R的mtcars,带有随机布尔值的任意添加列bt。使用R箭头包写出文件/文件夹结构(如下) 这些文件的布局如下: arr |-- bt=false | `-- part-1.arrow `-- bt=true `-- part-0.arrow 如何在Julia中忠实地复制原始表格 到目前为止,我所尝试的: 使用Parquet.jl包。文档建议它应该自动检测bool/string/date类型列的分区文件夹结构。当我使用

我正在尝试将一个微不足道的数据集读写到Julia中。数据集是取自R的
mtcars
,带有随机布尔值的任意添加列
bt
。使用R
箭头
包写出文件/文件夹结构(如下)

这些文件的布局如下:

arr
|-- bt=false
|   `-- part-1.arrow
`-- bt=true
    `-- part-0.arrow
如何在Julia中忠实地复制原始表格

到目前为止,我所尝试的:

  • 使用
    Parquet.jl
    包。文档建议它应该自动检测bool/string/date类型列的分区文件夹结构。当我使用
    read\u parquet(path;kwargs)
    在中读取数据时,生成的数据结构没有
    bt
    列。我已尝试将
    column\u generator
    关键字参数设置为默认的
    Parquet.dataset\u column\u generator
    ,但这不起作用

  • 使用
    Arrow.jl
    -我找不到一种文档化的方法(除非我误解了)来直接读取分区数据结构


  • R不会生成额外的元数据文件来存储模式,但我知道这是可选的,不是arrow规范的一部分?

    不幸的是,您最好使用
    Pycall
    来使用python拼花读取器正确读取此文件,这是不幸的;尽管如此,我还是要试一试。谢谢。您能提供下载此数据集的链接吗?这将有助于尝试哪些有效,哪些无效。谢谢。这是箭头格式的数据集: