Python 熊猫->；读得好吗？_Python_Json_Pandas

Python 熊猫->；读得好吗？

python json pandas

Python 熊猫->；读得好吗？,python,json,pandas,Python,Json,Pandas,如果使用聚合查询Elasticsearch，您会得到如下结果 { "took": 3, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": { "total": 0, "max_score": 0.0, "hits": [] }, "aggregations": { "myAgg": { "doc_count

如果使用聚合查询Elasticsearch，您会得到如下结果

{
"took": 3,
"timed_out": false,
"_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
},
"hits": {
    "total": 0,
    "max_score": 0.0,
    "hits": []
},
"aggregations": {
    "myAgg": {
        "doc_count_error_upper_bound": 0,
        "sum_other_doc_count": 0,
        "buckets": [
            {
                "key": 6026519297076008,
                "doc_count": 2
            },
            {
                "key": 6026519683202002,
                "doc_count": 2
            },
            {
                "key": 6026512090922114,
                "doc_count": 1
            },
            **********
            ALOT OF OTHERS ITEMS HERE, LIKE, MILLIONS!!!
            **********
        ]
    }
}
}}

是否有方法指示pandas忽略树的其余部分，只加载

bucket

的子元素

ps：我不想使用

json。加载，因为它使用大量内存（原始json大小的5-8倍），每个json大约有150MB。。。我将不得不处理其中大约150个
所以你的瓶颈是RAM消耗？如果没有预处理（很高兴被证明是错误的），你将无法在熊猫中完成这项工作，我唯一能想到的是修改你的api调用以获得子项。2.用python打开文件，去掉JSON中不需要的部分。@Marcos yes。。。因为这是一个如此简单的json，我真的不需要任何熊猫特有的功能，我尝试只使用json.loads
，但在很短的时间内RAM达到了5-6GB…同意@DataNearoil，我认为您的解决方案将涉及手动解析子对象。我想不出任何其他方法。所以你的瓶颈是RAM消耗？如果没有预处理（很高兴被证明是错误的），你将无法在pandas中实现这一点，我唯一能想到的是修改你的api调用以获得子项。2.用python打开文件，去掉JSON中不需要的部分。@Marcos yes。。。因为这是一个如此简单的json，我真的不需要任何熊猫特有的功能，我尝试只使用json.loads
，但在很短的时间内RAM达到了5-6GB…同意@DataNearoil，我认为您的解决方案将涉及手动解析子对象。我想不出别的办法了。