Java Hadoop流、typedbytes和/或rawbytes中的键、值和记录是如何分隔的

Java Hadoop流、typedbytes和/或rawbytes中的键、值和记录是如何分隔的,java,hadoop,mapreduce,hadoop-streaming,hadoopy,Java,Hadoop,Mapreduce,Hadoop Streaming,Hadoopy,我知道Hadoop流媒体中的文本记录由换行符分隔,键和值之间有一个可配置的分隔符(默认为tab) 1) rawbytes格式的结构表明不需要记录或键/值分隔符,但是有人能确认这种情况吗 2) 在typedbytes格式中,键和值如何分隔,记录如何分隔 3) 另外,键是如何以typedbytes和rawbytes格式排序的 正确的 标题中的长度信息使分隔符变得不必要,事实上,它们没有在规范中使用,只有一个例外,255分隔列表,类型代码9 未指定排序顺序。根据我的经验,mapreduce中的默认比较

我知道Hadoop流媒体中的文本记录由换行符分隔,键和值之间有一个可配置的分隔符(默认为tab)

1) rawbytes格式的结构表明不需要记录或键/值分隔符,但是有人能确认这种情况吗

2) 在typedbytes格式中,键和值如何分隔,记录如何分隔

3) 另外,键是如何以typedbytes和rawbytes格式排序的

  • 正确的
  • 标题中的长度信息使分隔符变得不必要,事实上,它们没有在规范中使用,只有一个例外,255分隔列表,类型代码9
  • 未指定排序顺序。根据我的经验,mapreduce中的默认比较器将它们作为原始字节进行排序,每个字节按数字排序,数组按字典排序。它是可插入的,因此您可以使用自己的Java类来更改它
  • 安东尼奥