Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/jquery-ui/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hive 将拼花地板文件编辑为二进制文件_Hive_Parquet_Amazon Athena_Presto_Orc - Fatal编程技术网

Hive 将拼花地板文件编辑为二进制文件

Hive 将拼花地板文件编辑为二进制文件,hive,parquet,amazon-athena,presto,orc,Hive,Parquet,Amazon Athena,Presto,Orc,假设AWS S3上的拼花文件(用于AWS Athena查询) 我需要通过更改数值(更改一个数字就足够了)来匿名化具有特定数字字段的记录 我可以将拼花地板文件扫描为二进制文件并找到一个数值吗?或者压缩会使找不到这样的字符串 假设我可以做到#1-我可以通过在二进制级别上更改此数字上的一个数字来匿名记录,而不会损坏拼花地板文件吗 10倍不,这是不可能的。拼花地板的格式有两层,这使得这不可能:编码和压缩。它们都对数据进行重新排序以适应更少的空间,它们之间的区别在于CPU使用率和通用性。有时,数据可以被压

假设AWS S3上的拼花文件(用于AWS Athena查询)

我需要通过更改数值(更改一个数字就足够了)来匿名化具有特定数字字段的记录

  • 我可以将拼花地板文件扫描为二进制文件并找到一个数值吗?或者压缩会使找不到这样的字符串
  • 假设我可以做到#1-我可以通过在二进制级别上更改此数字上的一个数字来匿名记录,而不会损坏拼花地板文件吗

  • 10倍不,这是不可能的。拼花地板的格式有两层,这使得这不可能:编码和压缩。它们都对数据进行重新排序以适应更少的空间,它们之间的区别在于CPU使用率和通用性。有时,数据可以被压缩,因此,如果所有值都相同/非常相似,则每个值需要不到一个字节的数据。更改单个值将导致更多的空间使用,从而使您无法进行编辑