Google api 谷歌云数据丢失预防(DLP)扫描GCS中的.parquet文件
我是Google Cloud DLP新手,我发了一篇帖子,扫描Google Cloud存储目录中的Google api 谷歌云数据丢失预防(DLP)扫描GCS中的.parquet文件,google-api,google-cloud-dlp,Google Api,Google Cloud Dlp,我是Google Cloud DLP新手,我发了一篇帖子,扫描Google Cloud存储目录中的.parquet文件,并使用
.parquet
文件,并使用
保存.csv
输出
.parquet
文件的长度为53.93米
当我对.parquet
文件进行API调用时,我得到:
"processedBytes": "102308122",
"infoTypeStats": [{
"infoType": {
"name": "AMERICAN_BANKERS_CUSIP_ID"
},
"count": "1"
}, {
"infoType": {
"name": "IP_ADDRESS"
},
"count": "17"
}, {
"infoType": {
"name": "US_TOLLFREE_PHONE_NUMBER"
},
"count": "148"
}, {
"infoType": {
"name": "EMAIL_ADDRESS"
},
"count": "30"
}, {
"infoType": {
"name": "US_STATE"
},
"count": "22"
}]
当我将.parquet
文件转换为.csv
时,我得到一个360.58 MB的文件。然后,如果我对.csv
文件进行API调用,我会得到:
"processedBytes": "377530307",
"infoTypeStats": [{
"infoType": {
"name": "CREDIT_CARD_NUMBER"
},
"count": "56546"
}, {
"infoType": {
"name": "EMAIL_ADDRESS"
},
"count": "372527"
}, {
"infoType": {
"name": "NETHERLANDS_BSN_NUMBER"
},
"count": "5"
}, {
"infoType": {
"name": "US_TOLLFREE_PHONE_NUMBER"
},
"count": "1331321"
}, {
"infoType": {
"name": "AUSTRALIA_TAX_FILE_NUMBER"
},
"count": "52269"
}, {
"infoType": {
"name": "PHONE_NUMBER"
},
"count": "28"
}, {
"infoType": {
"name": "US_DRIVERS_LICENSE_NUMBER"
},
"count": "114"
}, {
"infoType": {
"name": "US_STATE"
},
"count": "141383"
}, {
"infoType": {
"name": "KOREA_RRN"
},
"count": "56144"
}],
显然,当我扫描.parquet
文件时,与在.csv
文件上运行扫描相比,并没有检测到所有信息类型
我找不到任何关于压缩文件(如拼花地板)的文档,所以我假设谷歌云DLP不提供这种功能
任何帮助都将不胜感激。拼花地板文件目前被扫描为二进制对象,因为系统还没有很好地解析它们。在V2 api中,此处列出了受支持的文件类型。有点不清楚您在问什么。试着更具体地回答您想要的答案。我的问题是:如何使用DLP(数据丢失预防)扫描Google云存储中的.parquet文件?我在扫描.parquet文件时提供了输出,然后在扫描转换为.csv的相同.parquet文件以显示不一致时进一步提供了输出。