Java 无法将avro写入字节数组,然后将其读回
我刚刚开始使用Avro,在生成测试数据时遇到了一个问题 对于希望以一系列字节的形式读取数据的进程 当我看到我正在写的字节序列时,它似乎是我的第一个字段,它是 一个整数被弄坏了。第二个和第三个字段的字节似乎正常 假设这是我的avro模式Java 无法将avro写入字节数组,然后将其读回,java,serialization,schema,avro,Java,Serialization,Schema,Avro,我刚刚开始使用Avro,在生成测试数据时遇到了一个问题 对于希望以一系列字节的形式读取数据的进程 当我看到我正在写的字节序列时,它似乎是我的第一个字段,它是 一个整数被弄坏了。第二个和第三个字段的字节似乎正常 假设这是我的avro模式 { "type": "record", "namespace": "com.foo", "name": "test", "version": "1", "fields": [ {"name" : "
{
"type": "record",
"namespace": "com.foo",
"name": "test",
"version": "1",
"fields": [
{"name" : "code", "type" : "int", "default" : 1},
{ "name": "firstName", "type": "string", "doc": "firstName" },
{ "name": "lastName", "type": "string", "doc": "lastName" }
]
}
这是我的密码:
Schema avroSchema =
SchemaBuilder.record("test").namespace("com.foo").
fields().
requiredInt("code").
requiredString("firstName").
requiredString("lastName").endRecord();
GenericRecord avroMessage = new GenericData.Record(avroSchema);
avroMessage.put("code", 7);
avroMessage.put("firstName", "robert");
avroMessage.put("lastName", "wong");
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
ByteArrayOutputStream baos = new ByteArrayOutputStream();
Encoder encoder = EncoderFactory.get().binaryEncoder(baos, null);
DatumWriter<Object> datumWriter = new GenericDatumWriter<>(avroSchema);
datumWriter.write(avroMessage, encoder);
encoder.flush();
baos.close();
byte[] data = baos.toByteArray();
Integer code = ByteBuffer.wrap(data).getInt();
System.out.println("code:" + code);
// Result is code:235696751 -- not code:7 as expected.
Schema avroSchema=
schemabilder.record(“test”).namespace(“com.foo”)。
字段()。
要求(“代码”)。
requiredString(“firstName”)。
requiredString(“lastName”).endRecord();
GenericRecord avroMessage=新的GenericData.Record(avroSchema);
avroMessage.put(“代码”,7);
avroMessage.put(“名字”、“罗伯特”);
avroMessage.put(“姓”、“黄”);
ByteArrayOutputStream outputStream=新建ByteArrayOutputStream();
ByteArrayOutputStream bas=新的ByteArrayOutputStream();
编码器编码器=EncoderFactory.get().binaryEncoder(baos,null);
DatumWriter DatumWriter=新的通用DatumWriter(avroSchema);
datumWriter.write(avroMessage,编码器);
encoder.flush();
baos.close();
字节[]数据=baos.toByteArray();
整数代码=ByteBuffer.wrap(data.getInt();
System.out.println(“代码:”+代码);
//结果是代码235696751——而不是预期的代码7。
你知道我在做什么会破坏第一个整数字段吗?找到了问题的根源 最初,我读取写入的avro记录的第一个字节作为Int,但是 不是单独写出这个Int,而是写出整个记录——其中包含 一个Int作为它的第一个属性。我希望我的初始整数读取能够获取此属性 但事实证明,阿夫罗 使用某种形式的压缩(类似于Z字形整数)写出 从我能看出的压缩…但这是一个主要的次要问题 问题)。因此,解决方案是在写入之前显式写出整数 完整的Avro记录 关于为什么我们首先需要这个整数,有一些背景知识:
The app I am using uses a home grown avro schema management
approach where schemas are versioned, and the integer code
tells you which version of the schema to use for deserialization.
修订后的守则如下:
Schema mainSchema =
SchemaBuilder.record("test").namespace("com.foo").
fields().
requiredInt("code").
requiredString("nickName").
requiredString("lastName").endRecord();
GenericRecord avroMessage = new GenericData.Record(mainSchema);
avroMessage.put("code", 67);
avroMessage.put("nickName", "robert");
avroMessage.put("lastName", "smith");
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
ByteArrayOutputStream baos = new ByteArrayOutputStream();
try (DataOutputStream os = new DataOutputStream(baos)) {
os.writeInt(1); // Write out the integer code BEFORE the record
}
Encoder encoder = EncoderFactory.get().binaryEncoder(baos, null);
DatumWriter<Object> datumWriter = new GenericDatumWriter<>(mainSchema);
datumWriter.write(avroMessage, encoder);
encoder.flush();
baos.close();
byte[] data = baos.toByteArray();
ByteBuffer wrapped = ByteBuffer.wrap(data);
Integer theInt = wrapped.getInt();
byte[] event = new byte[wrapped.remaining()];
wrapped.get(event);
DatumReader<GenericRecord> reader = new GenericDatumReader<>(mainSchema);
BinaryDecoder decoder = DecoderFactory.get().binaryDecoder(event, null);
GenericRecord record = reader.read(null, decoder);
System.out.println("theInt:" + theInt); // should print 67
System.out.println("record:" + record); // should print: {"code": 0, "nickName": "", "lastName": ""}
模式mainSchema=
schemabilder.record(“test”).namespace(“com.foo”)。
字段()。
要求(“代码”)。
requiredString(“昵称”)。
requiredString(“lastName”).endRecord();
GenericRecord avroMessage=新的GenericData.Record(mainSchema);
avroMessage.put(“代码”,67);
avroMessage.put(“昵称”、“罗伯特”);
avroMessage.put(“姓氏”、“史密斯”);
ByteArrayOutputStream outputStream=新建ByteArrayOutputStream();
ByteArrayOutputStream bas=新的ByteArrayOutputStream();
try(DataOutputStream os=newdataoutputstream(baos)){
os.writeInt(1);//在记录之前写出整数代码
}
编码器编码器=EncoderFactory.get().binaryEncoder(baos,null);
DatumWriter DatumWriter=新的GenericDatumWriter(主模式);
datumWriter.write(avroMessage,编码器);
encoder.flush();
baos.close();
字节[]数据=baos.toByteArray();
ByteBuffer wrapped=ByteBuffer.wrapp(数据);
整数theInt=wrapped.getInt();
byte[]事件=新字节[wrapped.remaining()];
包装。获取(事件);
DatumReader=新的GenericDatumReader(主模式);
BinaryDecoder=DecoderFactory.get().BinaryDecoder(事件,null);
GenericRecord=reader.read(空,解码器);
System.out.println(“theInt:+theInt);//应该打印67
System.out.println(“记录:+记录);//应打印:{“代码”:0,“昵称”:““姓氏”:”}