FFmpeg转码声音（AAC）在半个视频时间后停止_Ffmpeg_Mp4_Aac_Libav_Sample Rate

FFmpeg转码声音（AAC）在半个视频时间后停止

ffmpeg

FFmpeg转码声音（AAC）在半个视频时间后停止,ffmpeg,mp4,aac,libav,sample-rate,Ffmpeg,Mp4,Aac,Libav,Sample Rate,我的C/C++FFmpeg转码器有一个奇怪的问题，它接收输入MP4（不同的输入编解码器），并生成和输出MP4（x264，基线&AAC LC@44100采样率，带libfdk_AAC）：生成的mp4视频具有精细的图像（x264），音频（AAC LC）也可以很好地工作，但只能播放到视频的一半音频不会变慢，不会拉长，也不会结巴。它正好停在视频的中间。一个提示可能是输入文件的采样率为22050，22050/44100为0.5，但我真的不明白为什么这会使声音在一半时间后停止。我认为这样的错误会导致声

我的C/C++FFmpeg转码器有一个奇怪的问题，它接收输入MP4（不同的输入编解码器），并生成和输出MP4（x264，基线&AAC LC@44100采样率，带libfdk_AAC）：

生成的mp4视频具有精细的图像（x264），音频（AAC LC）也可以很好地工作，但只能播放到视频的一半

音频不会变慢，不会拉长，也不会结巴。它正好停在视频的中间。

一个提示可能是输入文件的采样率为22050，22050/44100为0.5，但我真的不明白为什么这会使声音在一半时间后停止。我认为这样的错误会导致声音以错误的速度传播。如果我不强制执行44100，而是使用传入的采样率，那么一切都很好

另一种猜测是pts计算不起作用。但是音频听起来很好（直到停止），我对视频部分做了完全相同的，在那里它工作得完美无瑕。与同一代码中的“完全一样”，但“音频”变量替换为“视频”变量
FFmpeg在整个过程中不报告任何错误。在从输入读取所有包之后，我还刷新解码器/编码器/交织_写入。它对视频效果很好，所以我怀疑我的一般方法有很多错误
以下是我的代码的函数（去掉了错误处理和其他类的内容）：
音频编解码器上下文设置

outContext->_audioCodec = avcodec_find_encoder(outContext->_audioTargetCodecID); outContext->_audioStream = avformat_new_stream(outContext->_formatContext, outContext->_audioCodec); outContext->_audioCodecContext = outContext->_audioStream->codec; outContext->_audioCodecContext->channels = 2; outContext->_audioCodecContext->channel_layout = av_get_default_channel_layout(2); outContext->_audioCodecContext->sample_rate = 44100; outContext->_audioCodecContext->sample_fmt = outContext->_audioCodec->sample_fmts[0]; outContext->_audioCodecContext->bit_rate = 128000; outContext->_audioCodecContext->strict_std_compliance = FF_COMPLIANCE_EXPERIMENTAL; outContext->_audioCodecContext->time_base = (AVRational){1, outContext->_audioCodecContext->sample_rate}; outContext->_audioStream->time_base = (AVRational){1, outContext->_audioCodecContext->sample_rate}; int retVal = avcodec_open2(outContext->_audioCodecContext, outContext->_audioCodec, NULL);

outContext->_audioResamplerContext = swr_alloc_set_opts( NULL, outContext->_audioCodecContext->channel_layout, outContext->_audioCodecContext->sample_fmt, outContext->_audioCodecContext->sample_rate, _inputContext._audioCodecContext->channel_layout, _inputContext._audioCodecContext->sample_fmt, _inputContext._audioCodecContext->sample_rate, 0, NULL); int retVal = swr_init(outContext->_audioResamplerContext);
重采样器设置

outContext->_audioCodec = avcodec_find_encoder(outContext->_audioTargetCodecID); outContext->_audioStream = avformat_new_stream(outContext->_formatContext, outContext->_audioCodec); outContext->_audioCodecContext = outContext->_audioStream->codec; outContext->_audioCodecContext->channels = 2; outContext->_audioCodecContext->channel_layout = av_get_default_channel_layout(2); outContext->_audioCodecContext->sample_rate = 44100; outContext->_audioCodecContext->sample_fmt = outContext->_audioCodec->sample_fmts[0]; outContext->_audioCodecContext->bit_rate = 128000; outContext->_audioCodecContext->strict_std_compliance = FF_COMPLIANCE_EXPERIMENTAL; outContext->_audioCodecContext->time_base = (AVRational){1, outContext->_audioCodecContext->sample_rate}; outContext->_audioStream->time_base = (AVRational){1, outContext->_audioCodecContext->sample_rate}; int retVal = avcodec_open2(outContext->_audioCodecContext, outContext->_audioCodec, NULL);

outContext->_audioResamplerContext = swr_alloc_set_opts( NULL, outContext->_audioCodecContext->channel_layout, outContext->_audioCodecContext->sample_fmt, outContext->_audioCodecContext->sample_rate, _inputContext._audioCodecContext->channel_layout, _inputContext._audioCodecContext->sample_fmt, _inputContext._audioCodecContext->sample_rate, 0, NULL); int retVal = swr_init(outContext->_audioResamplerContext);
解码

decodedBytes = avcodec_decode_audio4( _inputContext._audioCodecContext, _inputContext._audioTempFrame, &p_gotAudioFrame, &_inputContext._currentPacket);
转换（当然，仅当解码产生帧时）
编码（当然，仅当解码产生帧时）
写入（当然，只有在编码生成数据包时）

我完全不知道是什么导致了这种行为。
所以，我终于自己设法弄明白了
问题确实在于抽样率的差异。您可以假设，在调用swr_convert（）时，调用swr_convert（）将提供转换音频帧所需的所有示例，就像我所做的那样。当然，那太容易了
相反，如果需要，您需要为每帧调用swr_convert（可能）多次，并缓冲其输出。然后，您需要从缓冲区中获取一个帧，这就是您必须编码的内容
以下是我的新convertAudioFrame函数：

// Calculate number of output samples int numOutputSamples = av_rescale_rnd( swr_get_delay(outContext->_audioResamplerContext, _inputContext._audioCodecContext->sample_rate) + _inputContext._audioTempFrame->nb_samples, outContext->_audioCodecContext->sample_rate, _inputContext._audioCodecContext->sample_rate, AV_ROUND_UP); if (numOutputSamples == 0) { return; } uint8_t* tempSamples; av_samples_alloc( &tempSamples, NULL, outContext->_audioCodecContext->channels, numOutputSamples, outContext->_audioCodecContext->sample_fmt, 0); int retVal = swr_convert( outContext->_audioResamplerContext, &tempSamples, numOutputSamples, (const uint8_t**)_inputContext._audioTempFrame->data, _inputContext._audioTempFrame->nb_samples); // Write to audio fifo if (retVal > 0) { retVal = av_audio_fifo_write(outContext->_audioFifo, (void**)&tempSamples, retVal); } av_freep(&tempSamples); // Get a frame from audio fifo int samplesAvailable = av_audio_fifo_size(outContext->_audioFifo); if (samplesAvailable > 0) { retVal = av_audio_fifo_read(outContext->_audioFifo, (void**)outContext->_audioConvertedFrame->data, outContext->_audioCodecContext->frame_size); // We got a frame, so also set its pts if (retVal > 0) { p_gotConvertedFrame = 1; if (_inputContext._audioTempFrame->pts != AV_NOPTS_VALUE) { outContext->_audioConvertedFrame->pts = _inputContext._audioTempFrame->pts; } else if (_inputContext._audioTempFrame->pkt_pts != AV_NOPTS_VALUE) { outContext->_audioConvertedFrame->pts = _inputContext._audioTempFrame->pkt_pts; } } }
我基本上调用这个函数，直到音频fifo缓冲区中没有更多的帧
因此，音频只有一半长，因为我只编码了我解码的帧数。因为采样率是2倍，所以我实际上需要编码2倍的帧

// Calculate number of output samples int numOutputSamples = av_rescale_rnd( swr_get_delay(outContext->_audioResamplerContext, _inputContext._audioCodecContext->sample_rate) + _inputContext._audioTempFrame->nb_samples, outContext->_audioCodecContext->sample_rate, _inputContext._audioCodecContext->sample_rate, AV_ROUND_UP); if (numOutputSamples == 0) { return; } uint8_t* tempSamples; av_samples_alloc( &tempSamples, NULL, outContext->_audioCodecContext->channels, numOutputSamples, outContext->_audioCodecContext->sample_fmt, 0); int retVal = swr_convert( outContext->_audioResamplerContext, &tempSamples, numOutputSamples, (const uint8_t**)_inputContext._audioTempFrame->data, _inputContext._audioTempFrame->nb_samples); // Write to audio fifo if (retVal > 0) { retVal = av_audio_fifo_write(outContext->_audioFifo, (void**)&tempSamples, retVal); } av_freep(&tempSamples); // Get a frame from audio fifo int samplesAvailable = av_audio_fifo_size(outContext->_audioFifo); if (samplesAvailable > 0) { retVal = av_audio_fifo_read(outContext->_audioFifo, (void**)outContext->_audioConvertedFrame->data, outContext->_audioCodecContext->frame_size); // We got a frame, so also set its pts if (retVal > 0) { p_gotConvertedFrame = 1; if (_inputContext._audioTempFrame->pts != AV_NOPTS_VALUE) { outContext->_audioConvertedFrame->pts = _inputContext._audioTempFrame->pts; } else if (_inputContext._audioTempFrame->pkt_pts != AV_NOPTS_VALUE) { outContext->_audioConvertedFrame->pts = _inputContext._audioTempFrame->pkt_pts; } } }