我用的是卡夫卡0.8.2。正如文件所说:
batch.num.messages指定:
使用异步模式时要在一批中发送的消息数。生产者将等待此数量的消息准备好发送或达到queue.buffer.max.ms
和request.required.acks控制代理对请求的确认
我想知道Kafka broker是如何发送此确认的,它是为该批邮件还是为每个邮件发送ACK?(幻灯片83):
原始消息列表已分区(如果默认设置为
根据目标分区/主题使用分区器,
i、 e.分成更小的批次。每个拆分后批次都会发送到
我有一些连接到本地Kafka实例的应用程序集成测试。我使用Java KafkaServer API在测试运行时按需创建本地实例,运行方式类似于此问题的公认答案:
我的每个测试在单独运行时都会通过。我遇到的问题是,我的测试使用相同的卡夫卡主题,我希望这些主题启动每个不包含消息的测试。但是,当我在系列中运行测试时,当所有测试在第一次运行后尝试重新创建它们所需的主题时,我会遇到此错误:
kafka.common.TopicExistsException: Topic "test_topic" alr
我在读有关阿帕奇·卡夫卡的书时,偶然发现了它的消费群体概念。我不明白的是它的用例。来自不同群体的两个不同消费者可能会阅读正在发布的相同消息。为什么要由两个不同的消费者处理相同的消息?有人能给出一个实际的用例吗?您想将数据写入MySQL和Elastic Search,您有一个应用程序可以读取事件并将其中一些标记为“错误”
这些用例中的每一个都是一个单独的应用程序,希望看到所有事件,因此它们将是单独的消费者组,并且每个都将看到所有消息。您希望将数据写入MySQL和弹性搜索,并且您有一个读取事件并将某
标签: Apache Kafka
batch-processingstream-processinglambda-architecturebigdata
如果Kappa架构直接对流进行分析,而不是将数据分成两个流,那么在像Kafka这样的messagin系统中,数据存储在哪里?或者可以在数据库中重新计算
单独的批处理层是否比使用流处理引擎重新计算批处理分析更快
“一个非常简单的例子是当算法应用到
实时数据和历史数据是相同的,那么
显然,使用相同的代码库进行处理非常有益
历史和实时数据,从而实现用例
使用Kappa架构”。“现在,用于处理
历史数据和实时数据并不总是相同的
在这种情况下,批处理算法可以优化,因为它
可以访问完整的历史数据集,然后性能
我正在尝试在windows机器中安装kafkaCat工具。
通过运行./bootstrap.sh快速构建时,我遇到以下错误:
$ ./bootstrap.sh
Directory librdkafka already exists, not downloading https://github.com/edenhill/librdkafka/archive/master.tar.gz
Directory libyajl already exists, not downloading https:
我知道,当一个主题有多个分区时,Kafka将无法保证数据的顺序。但我的问题是:-我需要一个事件主题(生成事件的用户活动)有多个分区,因为我希望多个使用者组使用该主题中的数据。
但有时我需要引导整个数据,也就是说,从头到尾读取完整的数据,然后根据卡夫卡中的历史信息重建事件图,然后我失去了顺序,这造成了问题。
一种方法可能是在Map-Reduce范式中处理它,在这种范式中,我根据时间对数据进行映射,并对其进行排序和使用。
是否有人遇到过类似的情况/问题,并愿意帮助我找到正确的方法/解决方案
提前感谢
是否存在可以从特定时间段/日期消费的低级或高级消费者Kafka 0.8.2?
(卡夫卡客户端,spark Kafka,…)没有。您必须转到0.10才能获得此类功能。不,没有。您必须转到0.10才能获得此类功能。使用OffsetAndTimestamp:
ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
Set<TopicPartition>
我试图在卡夫卡中创建一个主题,我通过从官方Apache mirror站点下载.tar安装了一个新的卡夫卡副本
我使用tar-xvf命令解包并启动服务器,服务器运行正常
现在我正在尝试命令:
bin/kafka-create-topic.sh-zookeeper localhost:2181-副本1-分区1-主题测试
我试图挖掘问题,并实际检查文件是否存在,但结果是否定的:
您位于bin目录中,因此命令应为:
./kafka-create-topic.sh
而不是
bin/kafka-create
假设我有以下情况
producer sends the following instructions on to kafka :
1. "debit 100 from account A"
2. "send email to user A that his account is debited by 100"
and there is a consumer that does the following :
1. does the actual work of 'debit 100'
2. d
在阅读ProducerAPI的参数时,我看到这些术语可以互换使用。那么,这些术语是指同一事物还是有概念上的区别呢?记录就是要发送的数据或消息
批次是一起发送的固定数量的记录
一个请求正在向代理发送多个批,以便代理将它们写入主题。batch.size字节被收集或linger.ms tims被传递后,Kafka将立即发送一个批。那么,为什么一个请求中可以有多个批次?或者这是否意味着kafka已经准备好为一个分区发送一个批,其他分区的批将关闭并在同一个请求中发送?
Producer连续发送消息。。。在停止消费者之前,我检查了偏移量值,它是8023。10分钟后,我开始使用耗电元件,然后第一个偏移值是8020。一段时间后,我再次停止消费者,当时偏移值是9239,一小时后我开始消费者,然后第一条消息偏移值是9299,我正在设置自动.offset.reset作为最新的我也在记录分区值,它仅为0。如果我在8092之后停止使用者,当我在30分钟后重新启动它时,它必须从8093获取如果它所使用的组没有提交的偏移量,使用者只考虑自动偏移量。重置。否则,它将从上次提交的偏移
我试图从下面的URL安装Kafka REST代理,但是它有完整的包-我只想单独安装REST客户端,就像我已经安装的其他组件一样
有什么地方可以找到说明吗?查看-您应该可以安装confluent kafka rest
或者,只需安装full Confluent Platform并只启动REST代理,效果相同:您是指REST代理吗?是的,但链接有整个平台,我只想安装REST代理。谢谢,我编辑了你的问题,让它清楚你到底是如何安装其他组件的?
如何检查以下情况
在注意到Kafka集群的降级之前,可以支持多少流,以及如何扩展集群,这将在很大程度上取决于应用程序正在做什么、吞吐量等等。一些通用资源可帮助您:
这在很大程度上取决于您的应用程序在做什么、吞吐量等等。一些通用资源可帮助您:
我们是否也可以为生产者使用应用程序\u ID\u CONFIG?我的意思是使用application.id和group.id我们可以为消费者建立群组。。同样的方法,我们可以使用application.id和group.id为制片人分组吗?这是一个
这是关于这一问题的后续问题。
我已设法做到以下几点:
为my 5 broker Kafka群集创建无头服务,用于代理间通信
为每个代理设置一个服务
每个服务都有一个外部ip
每个服务只选择一个pod,例如服务“kafka-0-es”选择pod“kafka-0”
POD正确宣传其各自的外部ip。我通过访问ZooKeeper CLI上的数据验证了这一点
我用zkCli创建了一个主题测试主题,并验证它是否已创建。之后,我开始制作卡夫卡游戏机
.\kafka-console-producer.bat
我已经用kafka:3提交的5.0.1生成器创建了一个最小的jhipster应用程序
使用jhipster生成器生成应用程序
添加图书作者数据模型jdl
添加卡夫卡元素
我在这里遵循了教程
然而,该应用程序无法在CentOS 7.5环境上启动
开始卡夫卡:
docker compose-f src/main/docker/kafka.yml up-d
启动我的应用程序
/mvnw
2018-06-25 10:56:40.883 WARN 15375 --- [ restartedMain
我们是否有任何选择,比如从卡夫卡主题获取最近10/20/等消息。我可以看到--from start选项来获取主题中的所有消息,但如果我只想获取少量消息,则可以选择first、last、middle或latest 10。我们有一些选择吗?前N条消息
您可以使用--max messages N来获取主题的第一条N消息
例如,要获取前10条消息,请运行
bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic tes
是否可以将字符串字段添加到KSQL表/流中,该表/流将包含原始消息的JSON的一部分
比如说,
原始信息:
{userId:12345,
service:"service-1",
"debug":{
"msg":"Debug message",
"timer": 11.12}
}
因此,我们需要将userId映射到userId BIGINT,service映射到service STRING,debug映射到debug STRING,该字符串将包
我试图为我的python脚本提供一个JSON格式的表来访问它,并且不想更改原始的主题格式,因为它目前是AVRO格式
所以我的问题是,有可能从AVRO格式更改为JSON格式吗?从流到表,或从表到表。是的,您可以指定可选的值\u格式并创建派生流/表:
从foo_avro创建流foo_json,其中(VALUE_FORMAT='json')作为SELECT*是的,您可以指定可选的值\u格式并创建派生流/表:
从foo_avro创建流foo_json,其中(VALUE_FORMAT='json')作为S
我已经在上下载了卡夫卡bash脚本
当我运行/kafka_2.12-2.2.0/bin/kafka-configs.sh--zookeer localhost:12181--实体类型主题--实体名称挑战--alter--添加配置清理。策略=compact,段.bytes=1000000,段.ms=60000
或者干脆/kafka_2.12-2.2.0/bin/kafka configs.sh
我总是有一个错误
“找不到或加载kafka.admin.ConfigCommand”
我已经尝试过重新
我已经为卡夫卡启用了Kerberos。我可以使用下面的命令生成数据
/usr/hdp/current/kafka-broker/bin/kafka-console-producer.sh --broker-list HOSTNAME:6667 --topic test --producer-property security.protocol=SASL_PLAINTEXT
但在消费时,我面临着如下错误
org.apache.kafka.common.KafkaException:无法构造kaf
我需要在KStream中使用transform操作,但在未设置必要的Serde时,会出现通常的ClassNotFoundException:
Caused by: java.lang.ClassCastException: xxx.SomeKey cannot be cast to [B
at org.apache.kafka.common.serialization.ByteArraySerializer.serialize(ByteArraySerializer.java:21)
我试图理解原木的压缩
对于主题,我的设置是
min.cleanable.dirty.ratio 0.005
segment.ms 5000
cleanup.policy compact
我制作了以下主题信息
a 0
b 1
c 1
f 4
r 0
s 1
u 1
f 5
h 1
我正在尝试通过kafka console consumer(即使在等待5分钟并创建了一个新的console consumer)消费-我仍然看到出现了两次f
a 0
b
卡夫卡的版本是卡夫卡2.12-2.2.0,zookeeper是3.5.4-beta
1.0启动代理
./bin/kafka-server-start.sh -daemon config/server.properties
2.创建一个名为test的主题
./bin/kafka-topics.sh --zookeeper 192.168.18.128:2181/kafka --topic test --create --partitions 2 --replication-factor 1
主
我想使用卡夫卡流处理卡夫卡主题中的消息
处理的最后一步是将结果放入数据库表中。为了避免与数据库争用相关的问题(程序将全天候运行并处理数百万条消息),我将对JDBC调用使用批处理
但是在这种情况下,消息可能会丢失(在一个场景中,我从一个主题中读取了500条消息,streams将标记为offset,现在程序失败了。JDBC批处理更新中的消息会丢失,但这些消息的offset会被标记)
我想在数据库插入/更新完成后手动标记最后一条消息的偏移量,但根据以下问题,这是不可能的:
有人能推荐任何可能的解决方案
我们有一个案例,我们希望连接到HDFS,并将一条消息记录到卡夫卡主题中的更改。本质上更改HDFS上的数据捕获。我知道这是一种不寻常的情况,您试图从HDFS捕获更改,不幸的是,这使得搜索变得困难。我们无法访问输入HDFS的源,因此在HDFS上捕获更改数据似乎是我们唯一的实际选择
我不需要自己阅读这些文件。能够把一条消息放到一个主题上,包含文件的完整路径和一些其他次要信息,这就足够了。但是,我需要处理HDFS的Kerberos身份验证
看起来Confluent有一个HDFS2SourceConnec
标签: Apache Kafka
oracle12capache-kafka-connectoracle-golden-gate
我想将数据从oracle复制到MongoDB,我的应用程序流程如下
Oracle 12c(DB)-->Oracle金门经典--->Oracle金门大数据--->卡夫卡系统--->消费者应用程序(目标MongoDB)
一切正常,我们可以使用跟踪文件,并在mongoDB中进行处理和存储
对于初始加载,我希望基于oracle分区复制数据,如下表所示,使用OCT_19分区
从DBUSER.XYZ分区中选择*
在哪里需要更改配置?尝试检查GoldenGate文档中的SQLPREDICATE和FILTER选
Kafka是否支持不同的使用者读取具有不同偏移量的同一分区
分区:
|------------Consumer 2, offset 2
+---+---+---+---+----+
| 0 | 1 | 2 | 3 | .. | <---- a particular partition
+---+---+---+---+----+
|______Consumer 1, offset 1
Is it possible?
|------消费者2,偏移量2
+
我在摆弄K8s处理的卡夫卡流。
到目前为止,情况或多或少还不错,但在测试环境中观察到奇怪的行为:
[Consumer clientId=dbe-livestream-kafka-streams-77185a88-71a7-40cd-8774-aeecc04054e1-StreamThread-1-Consumer,groupId=dbe-livestream-kafka-streams]我们收到了一份分配[_livestream.dbe.tradingcore.sporteventmapping
我正在使用kibana7.5.2和elasticsearch 7
我的第一种方法:我分别使用fluentd和metricbeat将日志数据和系统数据发送到我的Kibana服务器。一切正常。我可以在发现页面上看到数据。但我有大量的数据。所以我在服务器之间添加了卡夫卡
我的第二种方法:现在我向卡夫卡发送日志数据和系统数据。然后从卡夫卡,我将它发送到Kibana服务器。对于通过metricbeat的系统数据,我在Kibana中得到@timestamp字段,对于通过fluent得到的日志数据,我没有得到
我保存了一个非常基本的conf文件,它从文件夹中读取日志并将其推送到kafka,如下所示:
input {
file
{
add_field => { "app_id" => "12345"}
path => "/tmp/logs/*.log"
start_position => "beginning"
}
}
output {
if [app_id] == "12345" {
kafka {
我正在尝试用Kafka Connect编写一个自定义的单消息转换。从int64/Date类型字段中,我生成了一个长值,但当我试图将该长值写回具有相同模式(int64类型)的updatedValue时,我遇到了一个问题:
错误是:
[2020-05-14 14:31:52,120] INFO WorkerSourceTask{id=datechanger} Committing offsets (org.apache.kafka.connect.runtime.WorkerSourceTask)
我们正在通过从分区键中删除一列来更改一个表的分区键。此表中的每条记录也有TTL。现在我们想用TTL保存该表中的数据。
我们怎么做
我们可以使用所需的模式创建新表,然后将数据从旧表复制到新表。然而,我们在这个过程中失去了TTL
有关更多信息,此Cassandra表由从Kafka读取事件的Apache Storm应用程序填充。我们可以重新添加卡夫卡消息,但卡夫卡有一些我们不想处理的不需要的消息
注意-TTL是根据日期列值决定的,该值永远不会更改。因为所有列上的TTL都是相同的。在进入具体实现之前,必
将新分区添加到现有主题时,生产者和消费者如何适应此更改,以及将新分区分配给代理的策略是什么?对于生产者
生产者将非常无缝地适应分区的添加
假设您目前有5个分区,并且您决定再添加2个分区—如果您的生产者正在为中的分区生成数据:
一种循环方式,现在它将把消息循环到7个分区,而不是5个分区。
键控方式,即具有相同键的消息在同一分区中结束,然后将调整键到分区的映射。
面向消费者
另一方面,消费者可能无法适应,具体行为将在很大程度上取决于消费者群体中的实际设置
让我们使用与上面相同的示例,即一个具有5个分
我得到了带有时间戳的销售消息,并且属于同一销售的多条消息共享同一ID。但只有一条消息包含我要存储在KTable中的字段,以便用相应的ID丰富后续消息
我无法确定带有必需字段的消息是否总是先发送。
是否可以在填充KTable之前进行连接,包括消息(比如时间戳-5分钟)
(如果您的数据以x min的间隔分批提供,该怎么办?)
谢谢大家! 无法100%确定我是否理解该用例,但似乎您只希望存储包含相应字段的消息,否则您希望删除该消息。对于这种情况,您可以将数据读取为KStream,并在将记录放入表之前应
我想测量我的Kafka stream应用程序处理延迟,不管应用程序中有多少组件/转换器。我认为有一些方法:
嵌入式代码:只测量一个组件,不能测量整个流程
配置:Kafka提供可能有用的标志metrics.recording.level。然而,这个标志太过冗长,包含了许多我不需要的指标
有没有简单的方法来衡量这个指标
谢谢
我有一个自定义卡夫卡设置,其中我的应用程序和卡夫卡代理放在一个节点中。
为了确保应用程序实例只使用该节点中的分区(以减少网络开销),我为组中的所有成员分配了一个自定义分区赋值器
然而,如果代理失败,然后它重新加入集群,这会触发消费者重新平衡吗?类似地,如果我添加一个新的代理并触发分区重新分配脚本,这是否也会触发重新平衡?通常,消费者重新平衡会在以下情况下发生:
消费者加入或离开消费者组
消费者在到达管理组的超时(请参阅session.timeout.ms和heartbeat.interval.
我试图从rest代理发布json模式,但遇到异常
curl-k-X POST-H“内容类型:application/vnd.schemaregistry.v1+json”--数据“{”模式“{”类型“:“对象”,“属性“:{”名字“:{”类型“:“字符串”}”,姓氏“:{”类型“:“字符串”}”,年龄“:{”类型“:“整数”}”https://localhost:8081/subjects/schemaregistry.json-价值/版本
json模式格式是否错误?请告知
错误:
{“erro
我想删除所有中间主题并重新处理数据。在开发时,我用这个命令重新启动
docker exec -i containerName kafka-streams-application-reset.sh --bootstrap-servers :9092 --application-id appid1
但是,当使用多个应用程序时,会导致重复不必要的步骤。我想在运行Java应用程序之前这样做?有可能吗?kafka streams应用程序重置。sh只是一个围绕Scala类的shell包装,您可以从代码
我使用docker compose部署了一个三节点kafka集群
这是我的档案
version: '2'
services:
zookeeper:
image: bitnami/zookeeper
container_name: zook_kafka
ports:
- "192.168.0.90:2181:2181"
environment:
- ALLOW_ANONYMOUS_LOGIN=yes
kafka:
我们可以通过以下方式获得卡夫卡的所有信息:
bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning
有没有办法只获取最后一条信息
编辑:
如果您只想监视流中的某些消息(--max messages 10),一个方便的命令是:
watch-n5./bin/kafka-console-consumer.sh--zookeer localhost:2181--topic aucti
我目前正在用flink发现流处理的领域。然而,到目前为止,我读到的大多数专业文章都是关于弗林克和卡夫卡的。然而,我并没有找到一个清晰的解释,为什么这对组合看起来如此逻辑,并解释卡夫卡做了什么,而弗林克做不到,反之亦然
到目前为止,我发现了以下几点:
-flink无法使用readCsvFile连续处理_,kafka可以在这方面提供支持,
-卡夫卡可以进行流聚合,但与卡夫卡相比似乎有限(不确定)
因此,请毫不犹豫地添加您迄今为止在这些系统方面的知识和经验。事先非常感谢。诚然,乍一看差别并不明显
Ap
我有一个具有此属性的Avro架构:
{"name": "whenDate", "type": ["date", "null"]}
我使用的是Python客户端和生产者
confluent_kafka.avro.AvroProducer
当我加载带有上述属性的Avro模式时,
我触发了这个错误:
not a valid Avro schema: Type property "[u'date', u'null']" not a valid
Avro schema: Union item mus
当我用这个堆栈设置我的Swarm时:Kafka(多代理)、zookeeper、debezium。Kafka和zookeeper正在工作,可以创建主题、消费者和制作人,但debezium显示错误:org.apache.Kafka.connect.errors.ConnectException:无法连接并描述Kafka群集。检查工作者的代理连接和安全属性。我没有修改任何内容,只是默认配置为docker堆栈,如下所示:
version: '3.6'
services:
zoo:
im
标签: Apache Kafka
kerberoskafka-producer-apiambariapache-kafka-security
我已经在Ambari v2.7.3和HDP v3.1.0中为所有Hadoop服务启用了Kerberos。我已经使用NIFI验证了HBase身份验证。我还需要测试卡夫卡。在卡夫卡控制台中,我可以创建一个主题。但在生产和消费时,我面临着如下错误
security-protocol is not a recognized option
下面是我尝试过的卡夫卡制作人命令
/usr/hdp/3.1.0.0-78/kafka/bin/kafka-console-producer.sh --broker-l
创建自动主题时,我发现num.partitions的值是整个kafka集群上的分区号
我在我的机器上启动了2个代理,brokerA和brokerB都有自己的server.properties(都是num.partitons=2),然后我启动了一个生产者向kafka写消息。我发现每个代理创建一个分区
问题是,当集群中的每个代理都有自己不同的num.partitions时,一个主题的多少个分区的逻辑将变得模糊。例如,brokerA num.partition=2,brokerB num.partit
在这里,我给卡夫卡主题写了一个字符串,flink使用了这个主题。反序列化是通过使用SimpleStringSchema完成的。当我需要使用整数值时,应该使用什么反序列化方法来代替SimpleStringSchema
DataStream<String> messageStream = env.addSource(new FlinkKafkaConsumer09<String>("test2", new SimpleStringSchema(), properties));
我正在尝试将一个简单的json发布到卡夫卡主题。我正在使用ApacheNIFI和ApacheKafka(两者的最新版本)的停靠版本。卡夫卡版本是2.5,但没有处理器连接到此版本
当我使用其他publishKafka处理器时,我会出现以下错误:“无法在5000毫秒内更新元数据”
有人能帮我解决这个问题吗?NiFi 1.12.X现在支持卡夫卡升级到2.6版。您需要升级并切换到新的Kafka 2.6处理器。NiFi 1.12.X现在支持Kafka升级到2.6。您需要升级并切换到新的Kafka 2.6处
我有一个主题,我将以以下格式发送json:
{
"schema": {
"type": "string",
"optional": true
},
"payload": “CustomerData{version='1', customerId=‘76813432’, phone=‘76813432’}”
}
我想用customerId和phone创建一个流
我正在将kafka连接器连接到MQ,所有安装都成功,来自MQ的消息按预期流向kafka。但是我在消费者控制台中看到的消息格式不同,我没有得到!
我将纯文本消息(ex-Hi)放在MQ上,并在kafka-[B@90e44060
如何将纯文本转换为纯文本消息?要在mq源文件中解决此问题,请设置以下属性:
key.converter=org.apache.kafka.connect.converters.ByteArrayConverter
value.converter=org.apache.kafk
我正在尝试将SpringCloudStreams(kafka)的一个实现以声明方式迁移到推荐的功能模型
他们说:
…Spring Cloud Stream(SCSt)中的函数式编程模型。它是
更少的代码,更少的配置。但最重要的是,您的代码是
与SCSt内部完全解耦和独立
我当前的实现:
声明消息香奈儿
@Input(PRODUCT_INPUT_TOPIC)
MessageChannel productInputChannel();
使用现在不推荐使用的@StreamListener
@Stre
上一页 1 2 3 4 5 6 ...
下一页 最后一页 共 213 页