如何将分区的Apache Arrow或拼花地板文件读/写进/出Julia
我正在尝试将一个微不足道的数据集读写到Julia中。数据集是取自R的如何将分区的Apache Arrow或拼花地板文件读/写进/出Julia,julia,parquet,apache-arrow,Julia,Parquet,Apache Arrow,我正在尝试将一个微不足道的数据集读写到Julia中。数据集是取自R的mtcars,带有随机布尔值的任意添加列bt。使用R箭头包写出文件/文件夹结构(如下) 这些文件的布局如下: arr |-- bt=false | `-- part-1.arrow `-- bt=true `-- part-0.arrow 如何在Julia中忠实地复制原始表格 到目前为止,我所尝试的: 使用Parquet.jl包。文档建议它应该自动检测bool/string/date类型列的分区文件夹结构。当我使用
mtcars
,带有随机布尔值的任意添加列bt
。使用R箭头
包写出文件/文件夹结构(如下)
这些文件的布局如下:
arr
|-- bt=false
| `-- part-1.arrow
`-- bt=true
`-- part-0.arrow
如何在Julia中忠实地复制原始表格
到目前为止,我所尝试的:
Parquet.jl
包。文档建议它应该自动检测bool/string/date类型列的分区文件夹结构。当我使用read\u parquet(path;kwargs)
在中读取数据时,生成的数据结构没有bt
列。我已尝试将column\u generator
关键字参数设置为默认的Parquet.dataset\u column\u generator
,但这不起作用
Arrow.jl
-我找不到一种文档化的方法(除非我误解了)来直接读取分区数据结构
R不会生成额外的元数据文件来存储模式,但我知道这是可选的,不是arrow规范的一部分?不幸的是,您最好使用
Pycall
来使用python拼花读取器正确读取此文件,这是不幸的;尽管如此,我还是要试一试。谢谢。您能提供下载此数据集的链接吗?这将有助于尝试哪些有效,哪些无效。谢谢。这是箭头格式的数据集: