Google api 谷歌云数据丢失预防(DLP)扫描GCS中的.parquet文件

Google api 谷歌云数据丢失预防(DLP)扫描GCS中的.parquet文件,google-api,google-cloud-dlp,Google Api,Google Cloud Dlp,我是Google Cloud DLP新手,我发了一篇帖子,扫描Google Cloud存储目录中的.parquet文件,并使用

我是Google Cloud DLP新手,我发了一篇帖子,扫描Google Cloud存储目录中的
.parquet
文件,并使用
保存
.csv
输出

.parquet
文件的长度为53.93米

当我对
.parquet
文件进行API调用时,我得到:

"processedBytes": "102308122",
"infoTypeStats": [{
   "infoType": {
      "name": "AMERICAN_BANKERS_CUSIP_ID"
   },
   "count": "1"
}, {
   "infoType": {
      "name": "IP_ADDRESS"
   },
   "count": "17"
}, {
   "infoType": {
      "name": "US_TOLLFREE_PHONE_NUMBER"
   },
   "count": "148"
}, {
   "infoType": {
      "name": "EMAIL_ADDRESS"
   },
   "count": "30"
}, {
   "infoType": {
      "name": "US_STATE"
   },
   "count": "22"
}]
当我将
.parquet
文件转换为
.csv
时,我得到一个360.58 MB的文件。然后,如果我对
.csv
文件进行API调用,我会得到:

"processedBytes": "377530307",
"infoTypeStats": [{
   "infoType": {
      "name": "CREDIT_CARD_NUMBER"
   },
   "count": "56546"
}, {
   "infoType": {
      "name": "EMAIL_ADDRESS"
   },
   "count": "372527"
}, {
   "infoType": {
      "name": "NETHERLANDS_BSN_NUMBER"
   },
   "count": "5"
}, {
   "infoType": {
      "name": "US_TOLLFREE_PHONE_NUMBER"
   },
   "count": "1331321"
}, {
   "infoType": {
      "name": "AUSTRALIA_TAX_FILE_NUMBER"
   },
   "count": "52269"
}, {
   "infoType": {
      "name": "PHONE_NUMBER"
   },
   "count": "28"
}, {
   "infoType": {
      "name": "US_DRIVERS_LICENSE_NUMBER"
   },
   "count": "114"
}, {
   "infoType": {
      "name": "US_STATE"
   },
   "count": "141383"
}, {
   "infoType": {
      "name": "KOREA_RRN"
   },
   "count": "56144"
}],
显然,当我扫描
.parquet
文件时,与在
.csv
文件上运行扫描相比,并没有检测到所有
信息类型

我找不到任何关于压缩文件(如拼花地板)的文档,所以我假设谷歌云DLP不提供这种功能


任何帮助都将不胜感激。

拼花地板文件目前被扫描为二进制对象,因为系统还没有很好地解析它们。在V2 api中,此处列出了受支持的文件类型。

有点不清楚您在问什么。试着更具体地回答您想要的答案。我的问题是:如何使用DLP(数据丢失预防)扫描Google云存储中的.parquet文件?我在扫描.parquet文件时提供了输出,然后在扫描转换为.csv的相同.parquet文件以显示不一致时进一步提供了输出。