Web scraping 如何使用YouTube dl仅下载带有波斯字幕的特定音频

Web scraping 如何使用YouTube dl仅下载带有波斯字幕的特定音频,web-scraping,Web Scraping,我正试图为该项目创建一个波斯语数据库,所以我正试图通过YouTube查找波斯语视频,然后从中提取波斯语字幕和音频(如果该视频存在!) 因此,我通过colab使用youtube dl,如以下笔记本和代码: !youtube dl--write auto sub--list subs--sub lang fa--sub format=str--extract audio--audio format mp3-o%%(title)s.%(ext)s'--restrict filename--audio

我正试图为该项目创建一个波斯语数据库,所以我正试图通过YouTube查找波斯语视频,然后从中提取波斯语字幕和音频(如果该视频存在!)

因此,我通过colab使用youtube dl,如以下笔记本和代码:

!youtube dl--write auto sub--list subs--sub lang fa--sub format=str--extract audio--audio format mp3-o%%(title)s.%(ext)s'--restrict filename--audio quality'128K'“ytsearch100:

但我没有发现任何此类视频作为结果,这可以通过另一种方式完成:

1-使用此类代码从YouTube查找并保存波斯视频(此代码未找到任何带有波斯字幕的视频,这可能是因为搜索关键字错误或!?):

另外,当我删除
--list subs
标签时,它会下载没有字幕的视频,这也很奇怪,如下所示:

!youtube-dl -a Youtube_dl_links.txt --write-auto-sub  --list-subs  --sub-lang 'fa-IR' --sub-format=srv --extract-audio --audio-format mp3 -o '%(title)s by %(uploader)s on %(upload_date)s in %(playlist)s.%(ext)s' --restrict-filenames --audio-quality '128K'   "ytsearch10:  فارسی"  "ytsearchdate1:farsi" #  | jq -r '.id' | sed 's_^_https://youtu.be/_'> Search-url-file.txt

2-选择波斯语口语视频(默认语言必须是波斯语),我认为这可以通过指令完成:

这里的文档显示,您可以在中获取视频语言 多种方式:

视频标题/描述语言:snippet.defaultLanguage 默认音频曲目中的语言:snippet.defaultAudioLanguage 您可以选择调用Youtube数据API并检查 snippet.defaultAudioLanguage与所需语言匹配

我不确定你是否可以使用youtube dl来获取视频语言,但是 如果您使用Youtube数据API,这是可能的

我认为,通过via和selenium搜索适当的ID标签会起作用。(我会处理它,任何帮助都会感谢。)

3-从上述链接中提取音频和波斯语字幕

如果您能为上述列表的每一部分提供一些代码,我将不胜感激

谢谢

!youtube-dl -a Youtube_dl_links.txt --write-auto-sub  --list-subs  --sub-lang 'fa-IR' --sub-format=srv --extract-audio --audio-format mp3 -o '%(title)s by %(uploader)s on %(upload_date)s in %(playlist)s.%(ext)s' --restrict-filenames --audio-quality '128K'   "ytsearch10:  فارسی"  "ytsearchdate1:farsi" #  | jq -r '.id' | sed 's_^_https://youtu.be/_'> Search-url-file.txt
WARNING: fa-IR subtitles not available for 1StZFNqLTx0
[download] Persian_Speaking_World_-_Similarities_Differences by Bahador_Alast on 20190411 in _.webm has already been downloaded
[download] 100% of 20.26MiB