是什么导致Hadoop服务器(以及一般情况下)中的数据表变为;腐败;?

是什么导致Hadoop服务器(以及一般情况下)中的数据表变为;腐败;?,hadoop,corruption,data-management,Hadoop,Corruption,Data Management,今天,我的同事和我发现我们无法访问Hadoop服务器上的表-我们无法在Hive SQL中对表执行查询或将表提取到RStudio服务器 我们的数据管理人员说,有时会发生这种情况,表会“损坏” 是否纯粹是随机的(一条杂散的宇宙射线?)或是否存在工程或用户相关问题导致表损坏?虽然问题是一般性的,但损坏的原因可能因不同的用例而异。我遇到的一些原因是 由于对数据库执行任何操作,配置单元元存储数据库中表的元数据被覆盖、编辑或丢失。这本质上意味着,我们不能对特定的表或表组执行任何查询 HDFS中配置单元表

今天,我的同事和我发现我们无法访问Hadoop服务器上的表-我们无法在Hive SQL中对表执行查询或将表提取到RStudio服务器

我们的数据管理人员说,有时会发生这种情况,表会“损坏”


是否纯粹是随机的(一条杂散的宇宙射线?)或是否存在工程或用户相关问题导致表损坏?

虽然问题是一般性的,但损坏的原因可能因不同的用例而异。我遇到的一些原因是

  • 由于对数据库执行任何操作,配置单元元存储数据库中表的元数据被覆盖、编辑或丢失。这本质上意味着,我们不能对特定的表或表组执行任何查询

  • HDFS中配置单元表的实际数据已损坏。虽然达到这一点的可能性非常低(由于集群中的数据复制),但如果表文件的128 MB块损坏,则仍然可能无法读取数据。这将导致查询返回部分数据或不返回任何数据。这可以是特定于硬件的