Google cloud storage 在使用PyArrow+;拼花地板&x2B;谷歌云存储?

Google cloud storage 在使用PyArrow+;拼花地板&x2B;谷歌云存储?,google-cloud-storage,parquet,pyarrow,apache-arrow,gcsfuse,Google Cloud Storage,Parquet,Pyarrow,Apache Arrow,Gcsfuse,我真正想做的是(在Python中): 首先,我认为从V3.0.0开始,PyArrow就不支持gs://了。 因此,我必须修改代码以使用fsspec接口: 这是否实现了谓词下推(我对此表示怀疑,因为我已经用file.read()准备好了整个文件),还是有更好的方法实现这一点?这是否有效 import pyarrow.parquet as pq import gcsfs fs = gcsfs.GCSFileSystem(project='my-google-project') table = pq

我真正想做的是(在Python中):

首先,我认为从V3.0.0开始,PyArrow就不支持gs://了。 因此,我必须修改代码以使用fsspec接口:

这是否实现了谓词下推(我对此表示怀疑,因为我已经用file.read()准备好了整个文件),还是有更好的方法实现这一点?

这是否有效

import pyarrow.parquet as pq
import gcsfs

fs = gcsfs.GCSFileSystem(project='my-google-project')
table = pq.read_table('gs://my_bucket/my_blob.parquet', columns=['a', 'b', 'c'], filesystem=fs)
这行吗

import pyarrow.parquet as pq
import gcsfs

fs = gcsfs.GCSFileSystem(project='my-google-project')
table = pq.read_table('gs://my_bucket/my_blob.parquet', columns=['a', 'b', 'c'], filesystem=fs)

我要做个测试看看。。。。不确定。@user5406764您能告诉我们这对您是否有效吗?是的,确实有效。我测试了加载时间,将列设置为单个已知列,而不是完全不指定列。使用单列时,加载时间明显加快。我将运行一个测试以查看。。。。不确定。@user5406764您能告诉我们这对您是否有效吗?是的,确实有效。我测试了加载时间,将列设置为单个已知列,而不是完全不指定列。单列的加载时间明显更快。您是否尝试过
table=pq.read_table(文件,列=['a','b','c'])
(没有
read
read_table
支持将“类似文件的对象”作为参数。您是否尝试过
table=pq.read_table(file,columns=['a','b','c'])
(不带
read
read_table
支持将“类似文件的对象”作为参数
import pyarrow.parquet as pq
import gcsfs

fs = gcsfs.GCSFileSystem(project='my-google-project')
table = pq.read_table('gs://my_bucket/my_blob.parquet', columns=['a', 'b', 'c'], filesystem=fs)