Java Hadoop流、typedbytes和/或rawbytes中的键、值和记录是如何分隔的_Java_Hadoop_Mapreduce_Hadoop Streaming_Hadoopy

Java Hadoop流、typedbytes和/或rawbytes中的键、值和记录是如何分隔的

java hadoop mapreduce

Java Hadoop流、typedbytes和/或rawbytes中的键、值和记录是如何分隔的,java,hadoop,mapreduce,hadoop-streaming,hadoopy,Java,Hadoop,Mapreduce,Hadoop Streaming,Hadoopy,我知道Hadoop流媒体中的文本记录由换行符分隔，键和值之间有一个可配置的分隔符（默认为tab） 1） rawbytes格式的结构表明不需要记录或键/值分隔符，但是有人能确认这种情况吗 2）在typedbytes格式中，键和值如何分隔，记录如何分隔 3）另外，键是如何以typedbytes和rawbytes格式排序的正确的标题中的长度信息使分隔符变得不必要，事实上，它们没有在规范中使用，只有一个例外，255分隔列表，类型代码9 未指定排序顺序。根据我的经验，mapreduce中的默认比较

我知道Hadoop流媒体中的文本记录由换行符分隔，键和值之间有一个可配置的分隔符（默认为tab）

1） rawbytes格式的结构表明不需要记录或键/值分隔符，但是有人能确认这种情况吗

2）在typedbytes格式中，键和值如何分隔，记录如何分隔

3）另外，键是如何以typedbytes和rawbytes格式排序的

正确的

标题中的长度信息使分隔符变得不必要，事实上，它们没有在规范中使用，只有一个例外，255分隔列表，类型代码9

未指定排序顺序。根据我的经验，mapreduce中的默认比较器将它们作为原始字节进行排序，每个字节按数字排序，数组按字典排序。它是可插入的，因此您可以使用自己的Java类来更改它

看

安东尼奥