Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/315.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/apache-kafka/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 数据丢失生成器->;卡夫卡->;尼菲_Python_Apache Kafka_Apache Nifi_Confluent Kafka Python - Fatal编程技术网

Python 数据丢失生成器->;卡夫卡->;尼菲

Python 数据丢失生成器->;卡夫卡->;尼菲,python,apache-kafka,apache-nifi,confluent-kafka-python,Python,Apache Kafka,Apache Nifi,Confluent Kafka Python,我从csv文件向卡夫卡发送消息。我的制作人说所有制作卡夫卡主题的数据 除此之外,我还使用ApacheNIFI作为kafka主题的消费者(ConsumeKafka_2_0处理器) 如果我将kafka的数据生成到一个流中,一切都可以,但是如果我尝试使用多个并行文件的多个生产者,我会丢失很多行 我的制作人的核心如下: def produce(for_produce_file): log.info('Producing started') avro_schema = avro.schem

我从csv文件向卡夫卡发送消息。我的制作人说所有制作卡夫卡主题的数据

除此之外,我还使用ApacheNIFI作为kafka主题的消费者(ConsumeKafka_2_0处理器)

如果我将kafka的数据生成到一个流中,一切都可以,但是如果我尝试使用多个并行文件的多个生产者,我会丢失很多行

我的制作人的核心如下:

def produce(for_produce_file):
    log.info('Producing started')
    avro_schema = avro.schema.Parse(open(config.AVRO_SCHEME_FILE).read())
    names_from_schema = [field.name for field in avro_schema.fields]

    producer = Producer({'bootstrap.servers': config.KAFKA_BROKERS,
                     'security.protocol': config.SECURITY_PROTOCOL,
                     'ssl.ca.location': config.SSL_CAFILE,
                     'sasl.mechanism': config.SASL_MECHANISM,
                     'sasl.username': config.SASL_PLAIN_USERNAME,
                     'sasl.password': config.SASL_PLAIN_PASSWORD,
                     'queue.buffering.max.messages': 1000000,
                     'queue.buffering.max.ms': 5000})
    try:
        file = open(for_produce_file, 'r', encoding='utf-8')
    except FileNotFoundError:
        log.error(f'File {for_produce_file} not found')
    else:

        produced_str_count = 0
        csv_reader = csv.DictReader(file, delimiter="|", fieldnames=names_from_schema)
        log.info(f'File {for_produce_file} opened')

        for row in csv_reader:
            record = dict(zip(names_from_schema, row.values()))
            while True:
                try:
                    producer.produce(config.TOPIC_NAME, json.dumps(record).encode('utf8'))
                    producer.poll(0)
                    produced_str_count += 1
                    break
                except BufferError as e:
                    log.info(e)
                    producer.poll(5)
                except KafkaException as e:
                    log.error('Kafka error: {}, message was {} bytes'.format(e, sys.getsizeof(json.dumps(record))))
                    log.error(row)
                    break
        producer.flush()
        log.info(f'Producing ended. Produced {produced_str_count} rows')
Nifi处理器属性的屏幕截图:

卡夫卡包含3个节点,主题复制因子-3

也许问题在于生产者的写入速度比消费者的读取速度快,并且当某个块溢出时,数据会被删除


请给我一些建议。

请分享主题配置。您还可以在producer配置中利用ACK。我在您的代码片段中看不到这一点。请分享nifi规范,并谈谈您在flow中对并发性所做的考虑。当您遇到数据丢失等问题时,流文件在系统中的移动量。主题:事务分区计数:1复制因子:3配置:主题:事务分区:0领导者:2副本:2,3,1 Isr:3,2,1I刚将ACK添加到producer中,将测试它在我的情况下,parallelism正在对一组文件运行producer。在nifi中,我只使用一个分区读取kafka主题,之后,我将消息转换为一个ORC文件并将其存储到hive中。请共享主题配置。您还可以在producer配置中利用ACK。我在您的代码片段中看不到这一点。请分享nifi规范,并谈谈您在flow中对并发性所做的考虑。当您遇到数据丢失等问题时,流文件在系统中的移动量。主题:事务分区计数:1复制因子:3配置:主题:事务分区:0领导者:2副本:2,3,1 Isr:3,2,1I刚将ACK添加到producer中,将测试它在我的情况下,parallelism正在对一组文件运行producer。在nifi中,我只使用一个分区读取kafka主题,然后,我将消息转换为一个ORC文件,并将其存储到hive中。