Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform 将所有数据流转换为bigquery_Google Cloud Platform_Google Bigquery_Bigdata_Analytics - Fatal编程技术网

Google cloud platform 将所有数据流转换为bigquery

Google cloud platform 将所有数据流转换为bigquery,google-cloud-platform,google-bigquery,bigdata,analytics,Google Cloud Platform,Google Bigquery,Bigdata,Analytics,我需要更改从外部流进入bigquery的每一行的格式,因为这些行的格式几乎无法查询,所以我应该更改格式并将其保存在不同的数据集下 由于我对google cloud还比较陌生(我对aws echosystem比较精通),我想知道最好的方法是什么,因为我知道dataprep无法更改整个格式,所以我假设我需要将其加载到spark或hadoop,然后将数据推回到大查询中 我的用例是这样的 {"dimensions": { "date": "20180717", "name

我需要更改从外部流进入bigquery的每一行的格式,因为这些行的格式几乎无法查询,所以我应该更改格式并将其保存在不同的数据集下

由于我对google cloud还比较陌生(我对aws echosystem比较精通),我想知道最好的方法是什么,因为我知道dataprep无法更改整个格式,所以我假设我需要将其加载到spark或hadoop,然后将数据推回到大查询中

我的用例是这样的

{"dimensions": {
        "date": "20180717",
        "name": "general",
        "params": [{
                "key": "value",
                "value": {
                    "string_value": null,
                    "int_value": "0",
                    "float_value": null,
                    "double_value": null
                }
            }, {
                "key": "somevent",
                "value": {
                    "string_value": "app12",
                    "int_value": null,
                    "float_value": null,
                    "double_value": null
                }
            }, {
                "key": "category",
                "value": {
                    "string_value": "regist",
                    "int_value": null,
                    "float_value": null,
                    "double_value": null
                }
            }, {
                "key": "act",
                "value": {
                    "string_value": "enter",
                    "int_value": null,
                    "float_value": null,
                    "double_value": null
                }
            }
        ],
        "timestamp_micros": "1531792452128000",
        "previous_timestamp_micros": "1531662845053000",
        "value_in_usd": null
    }
}
例如,我想根据所有key:category的计数进行分组,这意味着对我来说很简单,如果category值实际上是一个键,string_值将位于顶层


想法

请您添加您拥有的模式/格式的示例,以及您必须帮助更好地提供解决方案的记录数。很可能您只需要编写正确的查询即可完成此转换。我看到你提到“格式…几乎不可能查询”,但我想尝试一下。因此,请给我们一个初始模式和所需模式的示例,以及一些数据examples@MikhailBerlyant,ty,添加了一个json导出器。您展示的示例-请澄清-这是否作为字符串存储在一列中?或者它表示具有重复记录的模式,等等?@MikhailBerlyant是的,不幸的是,它被保存为重复记录