Hive 蜂巢很长,田里有一堆

Hive 蜂巢很长,田里有一堆,hive,out-of-memory,orc,bigdata,Hive,Out Of Memory,Orc,Bigdata,我们存储的字符串字段的长度从小(几kB)到很长不等( 尝试使用文本文件而不是ORC。编写ORC文件需要更多内存 尝试增加并行度,添加更多映射器。为Tez使用这些参数,并尝试增加映射器的数量: --最小和最大拆分大小: set tez.grouping.min-size=16777216; set tez.grouping.max-size=1073741824; 请参见此处:请附上错误日志和配置单元参数。编辑,附上TEZ+ORC+8G RamThank的示例日志。我已将底层存储文件的格式更改为

我们存储的字符串字段的长度从小(几kB)到很长不等(
  • 尝试使用文本文件而不是ORC。编写ORC文件需要更多内存

  • 尝试增加并行度,添加更多映射器。为Tez使用这些参数,并尝试增加映射器的数量:

  • --最小和最大拆分大小:

    set tez.grouping.min-size=16777216;
    set tez.grouping.max-size=1073741824;
    

    请参见此处:

    请附上错误日志和配置单元参数。编辑,附上TEZ+ORC+8G RamThank的示例日志。我已将底层存储文件的格式更改为sequencefile,它开始像一个符咒一样工作。似乎ORC和RCFile不是为非常长的字符串字段这样的特定用例而构建的。构建柱状文件需要为数据处理的特殊缓冲区提供更多内存。
    set tez.grouping.min-size=16777216;
    set tez.grouping.max-size=1073741824;