Web scraping 如何使用YouTube dl仅下载带有波斯字幕的特定音频
我正试图为该项目创建一个波斯语数据库,所以我正试图通过YouTube查找波斯语视频,然后从中提取波斯语字幕和音频(如果该视频存在!) 因此,我通过colab使用youtube dl,如以下笔记本和代码:Web scraping 如何使用YouTube dl仅下载带有波斯字幕的特定音频,web-scraping,Web Scraping,我正试图为该项目创建一个波斯语数据库,所以我正试图通过YouTube查找波斯语视频,然后从中提取波斯语字幕和音频(如果该视频存在!) 因此,我通过colab使用youtube dl,如以下笔记本和代码: !youtube dl--write auto sub--list subs--sub lang fa--sub format=str--extract audio--audio format mp3-o%%(title)s.%(ext)s'--restrict filename--audio
!youtube dl--write auto sub--list subs--sub lang fa--sub format=str--extract audio--audio format mp3-o%%(title)s.%(ext)s'--restrict filename--audio quality'128K'“ytsearch100:
但我没有发现任何此类视频作为结果,这可以通过另一种方式完成:
1-使用此类代码从YouTube查找并保存波斯视频(此代码未找到任何带有波斯字幕的视频,这可能是因为搜索关键字错误或!?):
另外,当我删除--list subs
标签时,它会下载没有字幕的视频,这也很奇怪,如下所示:
!youtube-dl -a Youtube_dl_links.txt --write-auto-sub --list-subs --sub-lang 'fa-IR' --sub-format=srv --extract-audio --audio-format mp3 -o '%(title)s by %(uploader)s on %(upload_date)s in %(playlist)s.%(ext)s' --restrict-filenames --audio-quality '128K' "ytsearch10: فارسی" "ytsearchdate1:farsi" # | jq -r '.id' | sed 's_^_https://youtu.be/_'> Search-url-file.txt
2-选择波斯语口语视频(默认语言必须是波斯语),我认为这可以通过指令完成:
这里的文档显示,您可以在中获取视频语言
多种方式:
视频标题/描述语言:snippet.defaultLanguage
默认音频曲目中的语言:snippet.defaultAudioLanguage
您可以选择调用Youtube数据API并检查
snippet.defaultAudioLanguage与所需语言匹配
我不确定你是否可以使用youtube dl来获取视频语言,但是
如果您使用Youtube数据API,这是可能的
我认为,通过via和selenium搜索适当的ID标签会起作用。(我会处理它,任何帮助都会感谢。)
3-从上述链接中提取音频和波斯语字幕
如果您能为上述列表的每一部分提供一些代码,我将不胜感激
谢谢
!youtube-dl -a Youtube_dl_links.txt --write-auto-sub --list-subs --sub-lang 'fa-IR' --sub-format=srv --extract-audio --audio-format mp3 -o '%(title)s by %(uploader)s on %(upload_date)s in %(playlist)s.%(ext)s' --restrict-filenames --audio-quality '128K' "ytsearch10: فارسی" "ytsearchdate1:farsi" # | jq -r '.id' | sed 's_^_https://youtu.be/_'> Search-url-file.txt
WARNING: fa-IR subtitles not available for 1StZFNqLTx0
[download] Persian_Speaking_World_-_Similarities_Differences by Bahador_Alast on 20190411 in _.webm has already been downloaded
[download] 100% of 20.26MiB