使用googlelanguageR将语音转换为文本会生成空转录本

使用googlelanguageR将语音转换为文本会生成空转录本,r,speech-to-text,google-language-api,R,Speech To Text,Google Language Api,我正在使用R软件包“googleLanguageR”来转录各种30秒的音频文件(超过500秒,所以我想将其自动化)。我已经完成了googleLanguageR教程中的所有步骤,获得了我的密钥,并通过R 我能够转录软件包附带的测试音频(.wav),但每当我对文件(.mp3)应用相同的函数时,我的转录和计时都会为NULL 这是教程中提供的代码: # get the sample source file test_audio <- system.file("woman1_wb.wav", pac

我正在使用R软件包“googleLanguageR”来转录各种30秒的音频文件(超过500秒,所以我想将其自动化)。我已经完成了googleLanguageR教程中的所有步骤,获得了我的密钥,并通过R

我能够转录软件包附带的测试音频(.wav),但每当我对文件(.mp3)应用相同的函数时,我的转录和计时都会为NULL

这是教程中提供的代码:

# get the sample source file
test_audio <- system.file("woman1_wb.wav", package = "googleLanguageR")
gl_speech(test_audio)$transcript
#获取示例源文件

test_audio如果不是.wav,则需要指定音频文件的格式。参见网站参考:mp3不适合转录,因为很多音频信息丢失,所以您可能需要尝试以其他格式查找音频谢谢!我发现你必须把所有的东西都转换成FLAC,并且对采样率赫兹有明确的要求,否则它不会转录,或者它会转录出更多的错误。具体来说,我将此代码与ffmpeg一起使用(在本例中,它必须是44100,但可能会根据文件类型而有所不同):
rem单声道,32kbps。对于(*.mp3)中的%%f,执行ffmpeg-i“%%f”-acodec flac-bits_per_raw_sample 16-ar 44100-ac 1“%%~nf.flac”暂停
如果音频文件不是.wav,则需要指定音频文件的格式。参见网站参考:mp3不适合转录,因为很多音频信息丢失,所以您可能需要尝试以其他格式查找音频谢谢!我发现你必须把所有的东西都转换成FLAC,并且对采样率赫兹有明确的要求,否则它不会转录,或者它会转录出更多的错误。具体来说,我将此代码与ffmpeg一起使用(在本例中,它必须是44100,但可能会根据文件类型而有所不同):
rem单声道,32kbps。对于(*.mp3)中的%%f,执行ffmpeg-i“%%f”-acodec flac-每原始样本位16-ar 44100-ac 1“%%~nf.flac”暂停
test_audio <- "/audio_location/filename.mp3"
gl_speech(test_audio)$transcript