Java 无法将avro写入字节数组,然后将其读回

Java 无法将avro写入字节数组,然后将其读回,java,serialization,schema,avro,Java,Serialization,Schema,Avro,我刚刚开始使用Avro,在生成测试数据时遇到了一个问题 对于希望以一系列字节的形式读取数据的进程 当我看到我正在写的字节序列时,它似乎是我的第一个字段,它是 一个整数被弄坏了。第二个和第三个字段的字节似乎正常 假设这是我的avro模式 { "type": "record", "namespace": "com.foo", "name": "test", "version": "1", "fields": [ {"name" : "

我刚刚开始使用Avro,在生成测试数据时遇到了一个问题 对于希望以一系列字节的形式读取数据的进程

当我看到我正在写的字节序列时,它似乎是我的第一个字段,它是 一个整数被弄坏了。第二个和第三个字段的字节似乎正常

假设这是我的avro模式

{
     "type": "record",
     "namespace": "com.foo",
     "name": "test",
     "version": "1",
     "fields": [
        {"name" : "code", "type" : "int", "default" : 1},
        { "name": "firstName", "type": "string", "doc": "firstName" },
        { "name": "lastName", "type": "string", "doc": "lastName" }
     ]
}
这是我的密码:

Schema avroSchema =
    SchemaBuilder.record("test").namespace("com.foo").
        fields().
            requiredInt("code").
            requiredString("firstName").
            requiredString("lastName").endRecord();
GenericRecord avroMessage = new GenericData.Record(avroSchema);
avroMessage.put("code", 7);
avroMessage.put("firstName", "robert");
avroMessage.put("lastName", "wong");

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
ByteArrayOutputStream baos = new ByteArrayOutputStream();
Encoder encoder = EncoderFactory.get().binaryEncoder(baos, null);
DatumWriter<Object> datumWriter = new GenericDatumWriter<>(avroSchema);
datumWriter.write(avroMessage, encoder);
encoder.flush();
baos.close();
byte[] data = baos.toByteArray();

Integer  code = ByteBuffer.wrap(data).getInt();
System.out.println("code:" + code);


// Result is  code:235696751  -- not code:7 as expected.
Schema avroSchema=
schemabilder.record(“test”).namespace(“com.foo”)。
字段()。
要求(“代码”)。
requiredString(“firstName”)。
requiredString(“lastName”).endRecord();
GenericRecord avroMessage=新的GenericData.Record(avroSchema);
avroMessage.put(“代码”,7);
avroMessage.put(“名字”、“罗伯特”);
avroMessage.put(“姓”、“黄”);
ByteArrayOutputStream outputStream=新建ByteArrayOutputStream();
ByteArrayOutputStream bas=新的ByteArrayOutputStream();
编码器编码器=EncoderFactory.get().binaryEncoder(baos,null);
DatumWriter DatumWriter=新的通用DatumWriter(avroSchema);
datumWriter.write(avroMessage,编码器);
encoder.flush();
baos.close();
字节[]数据=baos.toByteArray();
整数代码=ByteBuffer.wrap(data.getInt();
System.out.println(“代码:”+代码);
//结果是代码235696751——而不是预期的代码7。

你知道我在做什么会破坏第一个整数字段吗?

找到了问题的根源

最初,我读取写入的avro记录的第一个字节作为Int,但是 不是单独写出这个Int,而是写出整个记录——其中包含 一个Int作为它的第一个属性。我希望我的初始整数读取能够获取此属性

但事实证明,阿夫罗 使用某种形式的压缩(类似于Z字形整数)写出 从我能看出的压缩…但这是一个主要的次要问题 问题)。因此,解决方案是在写入之前显式写出整数 完整的Avro记录

关于为什么我们首先需要这个整数,有一些背景知识:

The app I am using uses a home grown avro schema management 
approach where schemas are versioned, and the integer code 
tells you which version of the schema to use for deserialization.
修订后的守则如下:

Schema mainSchema =
    SchemaBuilder.record("test").namespace("com.foo").
        fields().
        requiredInt("code").
        requiredString("nickName").
        requiredString("lastName").endRecord();
GenericRecord avroMessage = new GenericData.Record(mainSchema);
avroMessage.put("code", 67);
avroMessage.put("nickName", "robert");
avroMessage.put("lastName", "smith");


ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
ByteArrayOutputStream baos = new ByteArrayOutputStream();

try (DataOutputStream os = new DataOutputStream(baos)) {
  os.writeInt(1);  // Write out the integer code BEFORE the record
}

Encoder encoder = EncoderFactory.get().binaryEncoder(baos, null);
DatumWriter<Object> datumWriter = new GenericDatumWriter<>(mainSchema);
datumWriter.write(avroMessage, encoder);
encoder.flush();
baos.close();
byte[] data = baos.toByteArray();

ByteBuffer wrapped = ByteBuffer.wrap(data);
Integer theInt = wrapped.getInt();
byte[] event = new byte[wrapped.remaining()];
wrapped.get(event);

DatumReader<GenericRecord> reader = new GenericDatumReader<>(mainSchema);
BinaryDecoder decoder = DecoderFactory.get().binaryDecoder(event, null);
GenericRecord record = reader.read(null, decoder);

System.out.println("theInt:" + theInt);   // should print 67
System.out.println("record:" + record);   // should print:    {"code": 0, "nickName": "", "lastName": ""}
模式mainSchema= schemabilder.record(“test”).namespace(“com.foo”)。 字段()。 要求(“代码”)。 requiredString(“昵称”)。 requiredString(“lastName”).endRecord(); GenericRecord avroMessage=新的GenericData.Record(mainSchema); avroMessage.put(“代码”,67); avroMessage.put(“昵称”、“罗伯特”); avroMessage.put(“姓氏”、“史密斯”); ByteArrayOutputStream outputStream=新建ByteArrayOutputStream(); ByteArrayOutputStream bas=新的ByteArrayOutputStream(); try(DataOutputStream os=newdataoutputstream(baos)){ os.writeInt(1);//在记录之前写出整数代码 } 编码器编码器=EncoderFactory.get().binaryEncoder(baos,null); DatumWriter DatumWriter=新的GenericDatumWriter(主模式); datumWriter.write(avroMessage,编码器); encoder.flush(); baos.close(); 字节[]数据=baos.toByteArray(); ByteBuffer wrapped=ByteBuffer.wrapp(数据); 整数theInt=wrapped.getInt(); byte[]事件=新字节[wrapped.remaining()]; 包装。获取(事件); DatumReader=新的GenericDatumReader(主模式); BinaryDecoder=DecoderFactory.get().BinaryDecoder(事件,null); GenericRecord=reader.read(空,解码器); System.out.println(“theInt:+theInt);//应该打印67 System.out.println(“记录:+记录);//应打印:{“代码”:0,“昵称”:““姓氏”:”}