如何将分区的Apache Arrow或拼花地板文件读/写进/出Julia_Julia_Parquet_Apache Arrow

如何将分区的Apache Arrow或拼花地板文件读/写进/出Julia

julia

如何将分区的Apache Arrow或拼花地板文件读/写进/出Julia,julia,parquet,apache-arrow,Julia,Parquet,Apache Arrow,我正在尝试将一个微不足道的数据集读写到Julia中。数据集是取自R的mtcars，带有随机布尔值的任意添加列bt。使用R箭头包写出文件/文件夹结构（如下）这些文件的布局如下： arr |-- bt=false | `-- part-1.arrow `-- bt=true `-- part-0.arrow 如何在Julia中忠实地复制原始表格到目前为止，我所尝试的：使用Parquet.jl包。文档建议它应该自动检测bool/string/date类型列的分区文件夹结构。当我使用

我正在尝试将一个微不足道的数据集读写到Julia中。数据集是取自R的

mtcars

，带有随机布尔值的任意添加列

bt

。使用R

箭头

包写出文件/文件夹结构（如下）

这些文件的布局如下：

arr
|-- bt=false
|   `-- part-1.arrow
`-- bt=true
    `-- part-0.arrow

如何在Julia中忠实地复制原始表格

到目前为止，我所尝试的：

使用

Parquet.jl

包。文档建议它应该自动检测bool/string/date类型列的分区文件夹结构。当我使用

read\u parquet（path；kwargs）

在中读取数据时，生成的数据结构没有

bt

列。我已尝试将

column\u generator

关键字参数设置为默认的

Parquet.dataset\u column\u generator

，但这不起作用

使用

Arrow.jl

-我找不到一种文档化的方法（除非我误解了）来直接读取分区数据结构

R不会生成额外的元数据文件来存储模式，但我知道这是可选的，不是arrow规范的一部分？

不幸的是，您最好使用

Pycall

来使用python拼花读取器正确读取此文件，这是不幸的；尽管如此，我还是要试一试。谢谢。您能提供下载此数据集的链接吗？这将有助于尝试哪些有效，哪些无效。谢谢。这是箭头格式的数据集：