Encoding 在配置单元中使用冰岛刺字符作为分隔符

Encoding 在配置单元中使用冰岛刺字符作为分隔符,encoding,hadoop,hive,Encoding,Hadoop,Hive,我目前正在尝试将一些双击广告日志导入Hadoop 这些日志存储在gzip分隔的文件中,该文件使用第1252页(Windows ANSI?)进行编码,并使用冰岛Thorn字符作为分隔符 我可以很高兴地将这些日志导入到单个列中,但我似乎找不到让Hive理解Thorn字符的方法——我想可能是因为它不理解1252编码 我已经查看了CREATETABLE文档,但似乎找不到任何方法来使用此编码/分隔符 我还从一个建议中看到,这些文件的编码是ISO-8859-1,但我不知道如何在Hive或HDFS中使用这些信

我目前正在尝试将一些双击广告日志导入Hadoop

这些日志存储在gzip分隔的文件中,该文件使用第1252页(Windows ANSI?)进行编码,并使用冰岛Thorn字符作为分隔符

我可以很高兴地将这些日志导入到单个列中,但我似乎找不到让Hive理解Thorn字符的方法——我想可能是因为它不理解1252编码

我已经查看了CREATETABLE文档,但似乎找不到任何方法来使用此编码/分隔符

我还从一个建议中看到,这些文件的编码是ISO-8859-1,但我不知道如何在Hive或HDFS中使用这些信息

我知道我可以在导入后执行映射工作,将这些行拆分为多个记录

但是有没有更简单的方法直接使用这个分隔符呢

谢谢

斯图尔特

使用'\-2' 字符是有符号字节

显然,蜂巢开发者并不认为这是一个问题:

类似于:创建外部表my_表(id字符串、名称字符串)行格式分隔字段,以“\-2”位置“/my/hdfs/location”结尾;