Python 加载到BigQuery时进行重复数据消除
我有新的记录要插入BQ。如何只添加那些不存在的内容?加载时执行重复数据消除 例如,我有在BQPython 加载到BigQuery时进行重复数据消除,python,google-bigquery,Python,Google Bigquery,我有新的记录要插入BQ。如何只添加那些不存在的内容?加载时执行重复数据消除 例如,我有在BQ id | text ----- 1 one 2 two 3 three 我想补充一点 3 three 4 four 我想和你在一起 1 one 2 two 3 three 4 four (这样可以消除重复数据3个记录) 我想使用python脚本。您应该始终使用基于集合的操作。只需使用MERGE语句。首先将它们全部放入一个数据集中(我称之为源),然后将它们合并到目标数据集中(称为目标) 当然,你可
id | text
-----
1 one
2 two
3 three
我想补充一点
3 three
4 four
我想和你在一起
1 one
2 two
3 three
4 four
(这样可以消除重复数据3个
记录)
我想使用python脚本。您应该始终使用基于集合的操作。只需使用MERGE语句。首先将它们全部放入一个数据集中(我称之为源),然后将它们合并到目标数据集中(称为目标)
当然,你可以做更强大的事情,你得到的想法。免责声明:这未经测试。您应始终使用基于集合的操作。只需使用MERGE语句。首先将它们全部放入一个数据集中(我称之为源),然后将它们合并到目标数据集中(称为目标) 当然,你可以做更强大的事情,你得到的想法。免责声明:这不是测试
MERGE dataset.target T
USING dataset.source S
ON T.id = S.id
WHEN NOT MATCHED
INSERT(id, text)
VALUES(id, text)