Google cloud platform 将所有数据流转换为bigquery
我需要更改从外部流进入bigquery的每一行的格式,因为这些行的格式几乎无法查询,所以我应该更改格式并将其保存在不同的数据集下 由于我对google cloud还比较陌生(我对aws echosystem比较精通),我想知道最好的方法是什么,因为我知道dataprep无法更改整个格式,所以我假设我需要将其加载到spark或hadoop,然后将数据推回到大查询中 我的用例是这样的Google cloud platform 将所有数据流转换为bigquery,google-cloud-platform,google-bigquery,bigdata,analytics,Google Cloud Platform,Google Bigquery,Bigdata,Analytics,我需要更改从外部流进入bigquery的每一行的格式,因为这些行的格式几乎无法查询,所以我应该更改格式并将其保存在不同的数据集下 由于我对google cloud还比较陌生(我对aws echosystem比较精通),我想知道最好的方法是什么,因为我知道dataprep无法更改整个格式,所以我假设我需要将其加载到spark或hadoop,然后将数据推回到大查询中 我的用例是这样的 {"dimensions": { "date": "20180717", "name
{"dimensions": {
"date": "20180717",
"name": "general",
"params": [{
"key": "value",
"value": {
"string_value": null,
"int_value": "0",
"float_value": null,
"double_value": null
}
}, {
"key": "somevent",
"value": {
"string_value": "app12",
"int_value": null,
"float_value": null,
"double_value": null
}
}, {
"key": "category",
"value": {
"string_value": "regist",
"int_value": null,
"float_value": null,
"double_value": null
}
}, {
"key": "act",
"value": {
"string_value": "enter",
"int_value": null,
"float_value": null,
"double_value": null
}
}
],
"timestamp_micros": "1531792452128000",
"previous_timestamp_micros": "1531662845053000",
"value_in_usd": null
}
}
例如,我想根据所有key:category的计数进行分组,这意味着对我来说很简单,如果category值实际上是一个键,string_值将位于顶层
想法 请您添加您拥有的模式/格式的示例,以及您必须帮助更好地提供解决方案的记录数。很可能您只需要编写正确的查询即可完成此转换。我看到你提到“格式…几乎不可能查询”,但我想尝试一下。因此,请给我们一个初始模式和所需模式的示例,以及一些数据examples@MikhailBerlyant,ty,添加了一个json导出器。您展示的示例-请澄清-这是否作为字符串存储在一列中?或者它表示具有重复记录的模式,等等?@MikhailBerlyant是的,不幸的是,它被保存为重复记录