Ibm data replication 使用数据复制';s Kafka事务一致性使用者-如何配置?在卡夫卡登台比写WebHDFS好吗?

Ibm data replication 使用数据复制';s Kafka事务一致性使用者-如何配置?在卡夫卡登台比写WebHDFS好吗?,ibm-data-replication,Ibm Data Replication,我们已经为Kafka建立了IBM数据复制CDC复制引擎的工作订阅。消息(复制事务)开始出现在目标卡夫卡主题上 我们的目标是创建一个从kafka读取这些消息并写入目标系统上的文件的程序 如何调整kafka\u bookmark\u storage\u type参数? 我们开始遵循提供的说明。根据第节,有一个先决条件。我们必须 “[…]将系统参数kafka_bookmark_storage_type从默认值POINTBASE更改为值COMMITSTREAMTOPIC.[…]” 您能告诉我在哪里更改上

我们已经为Kafka建立了IBM数据复制CDC复制引擎的工作订阅。消息(复制事务)开始出现在目标卡夫卡主题上

我们的目标是创建一个从kafka读取这些消息并写入目标系统上的文件的程序

  • 如何调整
    kafka\u bookmark\u storage\u type
    参数? 我们开始遵循提供的说明。根据第节,有一个先决条件。我们必须

    “[…]将系统参数kafka_bookmark_storage_type从默认值POINTBASE更改为值COMMITSTREAMTOPIC.[…]”

    您能告诉我在哪里更改上述参数吗? 我们的目标系统在Linux上运行。源代码在AIX上运行。这导致:

  • 事务一致性客户端或WebHDFS:如果我们更愿意将CDC用于WebHDFS而不是CDC Kafka,我们在功能方面会有什么技术上的松动/获益


  • 我是Sarah,在IBM工作。我将分两部分回答您的问题:

    “我们的目标是创建一个程序,从卡夫卡读取这些消息并写入目标系统上的文件。”

    将TCC API合并到消费应用程序中是确保您可以重新创建源数据的原始事务性的一种方法。但是,您也可以通过从主题中读取数据来使用标准的消费方法。在知识中心,您将看到每个KCOP的Kafka console consumer命令用一般的卡夫卡方式阅读数据。只需指出你可以选择两者

    E.x.:

    “[…]将系统参数kafka_bookmark_storage_type从默认值POINTBASE更改为值COMMITSTREAMTOPIC。[…]”

    此参数是数据存储参数,应在CDC Kafka目标实例上设置。您可以通过MC右键单击数据存储并在中添加参数来完成此操作

    现在是问题的第二部分:

    “交易一致性客户端与WebHDFS如果我们宁愿将CDC用于WebHDFS而不是CDC Kafka,我们在功能方面会失去/获得什么?”

    卡夫卡疾病预防控制中心是该产品最快的目标。卡夫卡的体系结构与源数据库上发生的更改流更紧密地结合在一起。HDFS需要聚合消息,因为Hadoop不喜欢许多小文件。采用OLTP工作负载并将其转换为批处理本质上是一个效率较低的过程,并且在使用CDC资源方面效率较低。CDC卡夫卡将更好地扩展,因为它可以利用主题的并行书写等

    许多拥有Hadoop系统的客户发现,在他们前面添加Kafka作为OLTP类型消息工作负载的缓冲区,既可以直接从Kafka集群实时访问数据,也可以在最终写入Hadoop时使用Kafka作为执行批聚合的缓冲区。一些客户报告说,Kafka的开源HDFS连接器成功地执行了这项任务,从Kafka获取数据并将其应用于Hadoop,甚至可以将数据转换为我相信的拼花地板或Avro数据文件格式