Python 数据丢失生成器->；卡夫卡->；尼菲_Python_Apache Kafka_Apache Nifi_Confluent Kafka Python

Python 数据丢失生成器->；卡夫卡->；尼菲

python apache-kafka apache-nifi

Python 数据丢失生成器->；卡夫卡->；尼菲,python,apache-kafka,apache-nifi,confluent-kafka-python,Python,Apache Kafka,Apache Nifi,Confluent Kafka Python,我从csv文件向卡夫卡发送消息。我的制作人说所有制作卡夫卡主题的数据除此之外，我还使用ApacheNIFI作为kafka主题的消费者（ConsumeKafka_2_0处理器）如果我将kafka的数据生成到一个流中，一切都可以，但是如果我尝试使用多个并行文件的多个生产者，我会丢失很多行我的制作人的核心如下： def produce(for_produce_file): log.info('Producing started') avro_schema = avro.schem

我从csv文件向卡夫卡发送消息。我的制作人说所有制作卡夫卡主题的数据

除此之外，我还使用ApacheNIFI作为kafka主题的消费者（ConsumeKafka_2_0处理器）

如果我将kafka的数据生成到一个流中，一切都可以，但是如果我尝试使用多个并行文件的多个生产者，我会丢失很多行

我的制作人的核心如下：

def produce(for_produce_file):
    log.info('Producing started')
    avro_schema = avro.schema.Parse(open(config.AVRO_SCHEME_FILE).read())
    names_from_schema = [field.name for field in avro_schema.fields]

    producer = Producer({'bootstrap.servers': config.KAFKA_BROKERS,
                     'security.protocol': config.SECURITY_PROTOCOL,
                     'ssl.ca.location': config.SSL_CAFILE,
                     'sasl.mechanism': config.SASL_MECHANISM,
                     'sasl.username': config.SASL_PLAIN_USERNAME,
                     'sasl.password': config.SASL_PLAIN_PASSWORD,
                     'queue.buffering.max.messages': 1000000,
                     'queue.buffering.max.ms': 5000})
    try:
        file = open(for_produce_file, 'r', encoding='utf-8')
    except FileNotFoundError:
        log.error(f'File {for_produce_file} not found')
    else:

        produced_str_count = 0
        csv_reader = csv.DictReader(file, delimiter="|", fieldnames=names_from_schema)
        log.info(f'File {for_produce_file} opened')

        for row in csv_reader:
            record = dict(zip(names_from_schema, row.values()))
            while True:
                try:
                    producer.produce(config.TOPIC_NAME, json.dumps(record).encode('utf8'))
                    producer.poll(0)
                    produced_str_count += 1
                    break
                except BufferError as e:
                    log.info(e)
                    producer.poll(5)
                except KafkaException as e:
                    log.error('Kafka error: {}, message was {} bytes'.format(e, sys.getsizeof(json.dumps(record))))
                    log.error(row)
                    break
        producer.flush()
        log.info(f'Producing ended. Produced {produced_str_count} rows')

Nifi处理器属性的屏幕截图：

卡夫卡包含3个节点，主题复制因子-3

也许问题在于生产者的写入速度比消费者的读取速度快，并且当某个块溢出时，数据会被删除

请给我一些建议。

请分享主题配置。您还可以在producer配置中利用ACK。我在您的代码片段中看不到这一点。请分享nifi规范，并谈谈您在flow中对并发性所做的考虑。当您遇到数据丢失等问题时，流文件在系统中的移动量。主题：事务分区计数：1复制因子：3配置：主题：事务分区：0领导者：2副本：2,3,1 Isr:3,2,1I刚将ACK添加到producer中，将测试它在我的情况下，parallelism正在对一组文件运行producer。在nifi中，我只使用一个分区读取kafka主题，之后，我将消息转换为一个ORC文件并将其存储到hive中。请共享主题配置。您还可以在producer配置中利用ACK。我在您的代码片段中看不到这一点。请分享nifi规范，并谈谈您在flow中对并发性所做的考虑。当您遇到数据丢失等问题时，流文件在系统中的移动量。主题：事务分区计数：1复制因子：3配置：主题：事务分区：0领导者：2副本：2,3,1 Isr:3,2,1I刚将ACK添加到producer中，将测试它在我的情况下，parallelism正在对一组文件运行producer。在nifi中，我只使用一个分区读取kafka主题，然后，我将消息转换为一个ORC文件，并将其存储到hive中。