Hive 配置单元中存在错误的数据性能问题

Hive 配置单元中存在错误的数据性能问题,hive,Hive,目前我面临着数据性能差的问题。 例如,hive表中的数据, 列:国家、州、客户名称 列状态中存在键入错误。 i、 e TN但键入TM 请帮助我如何通过清除坏数据来克服此问题。我建议将数据加载到临时表中,然后使用交叉验证加载主表:数据状态表,如select*from Temp\u tbl,其中状态存在于select'd'from state\u tbl中,其中parent.state=state 这样,程序将不会失败,并将错误捕获到其他记录或文件中

目前我面临着数据性能差的问题。 例如,hive表中的数据, 列:国家、州、客户名称

列状态中存在键入错误。 i、 e TN但键入TM


请帮助我如何通过清除坏数据来克服此问题。

我建议将数据加载到临时表中,然后使用交叉验证加载主表:数据状态表,如select*from Temp\u tbl,其中状态存在于select'd'from state\u tbl中,其中parent.state=state

这样,程序将不会失败,并将错误捕获到其他记录或文件中