Python 熊猫->;读得好吗?

Python 熊猫->;读得好吗?,python,json,pandas,Python,Json,Pandas,如果使用聚合查询Elasticsearch,您会得到如下结果 { "took": 3, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": { "total": 0, "max_score": 0.0, "hits": [] }, "aggregations": { "myAgg": { "doc_count

如果使用聚合查询Elasticsearch,您会得到如下结果

{
"took": 3,
"timed_out": false,
"_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
},
"hits": {
    "total": 0,
    "max_score": 0.0,
    "hits": []
},
"aggregations": {
    "myAgg": {
        "doc_count_error_upper_bound": 0,
        "sum_other_doc_count": 0,
        "buckets": [
            {
                "key": 6026519297076008,
                "doc_count": 2
            },
            {
                "key": 6026519683202002,
                "doc_count": 2
            },
            {
                "key": 6026512090922114,
                "doc_count": 1
            },
            **********
            ALOT OF OTHERS ITEMS HERE, LIKE, MILLIONS!!!
            **********
        ]
    }
}
}}
是否有方法指示pandas忽略树的其余部分,只加载
bucket
的子元素


ps:我不想使用
json。加载
,因为它使用大量内存(原始json大小的5-8倍),每个json大约有150MB。。。我将不得不处理其中大约150个

所以你的瓶颈是RAM消耗?如果没有预处理(很高兴被证明是错误的),你将无法在熊猫中完成这项工作,我唯一能想到的是修改你的api调用以获得子项。2.用python打开文件,去掉JSON中不需要的部分。@Marcos yes。。。因为这是一个如此简单的json,我真的不需要任何熊猫特有的功能,我尝试只使用
json.loads
,但在很短的时间内RAM达到了5-6GB…同意@DataNearoil,我认为您的解决方案将涉及手动解析子对象。我想不出任何其他方法。所以你的瓶颈是RAM消耗?如果没有预处理(很高兴被证明是错误的),你将无法在pandas中实现这一点,我唯一能想到的是修改你的api调用以获得子项。2.用python打开文件,去掉JSON中不需要的部分。@Marcos yes。。。因为这是一个如此简单的json,我真的不需要任何熊猫特有的功能,我尝试只使用
json.loads
,但在很短的时间内RAM达到了5-6GB…同意@DataNearoil,我认为您的解决方案将涉及手动解析子对象。我想不出别的办法了。