种子URL以爬网整个Youtube

种子URL以爬网整个Youtube,youtube,web-crawler,nutch,Youtube,Web Crawler,Nutch,我正试图用ApacheNutch抓取整个youtube.com。问题是我需要大量的种子URL来确保几乎所有Youtube的URL都被爬网。但我找不到youtube的任何网站地图或URL列表。例如,为了抓取apple.com,我可以提供苹果网站的stiemap的URL作为种子- 目前我唯一的种子是-https://www.youtube.com。 我的regex urlfilter.txt包含- +^https://www.youtube.com/?(watch\\?([^#\\&\\?]

我正试图用ApacheNutch抓取整个youtube.com。问题是我需要大量的种子URL来确保几乎所有Youtube的URL都被爬网。但我找不到youtube的任何网站地图或URL列表。例如,为了抓取
apple.com
,我可以提供苹果网站的stiemap的URL作为种子-

目前我唯一的种子是-
https://www.youtube.com
。 我的
regex urlfilter.txt
包含-

+^https://www.youtube.com/?(watch\\?([^#\\&\\?]*).*)?$
我尝试了很好的搜索,比如
filetype:xml-site:youtube.com
,但什么也没出现


有人能帮我找到一种方法,收集种子到youtube.com上爬网吗?

这是我得到的网站地图:

来自robots.txt。尝试跟踪从一个主页到另一个主页的传出链接


然后迭代地进行

这是我得到的网站地图:

来自robots.txt。尝试跟踪从一个主页到另一个主页的传出链接


然后迭代地进行

“抓取整个youtube.com”——youtube上的视频数量达到数十亿。一个有礼貌的爬虫,每秒在网页上抓取,每年将下载3000万。要爬上第一个十亿需要30年的时间。如果你的意思是“整体”,而不是数百万个样本,那么最好的方法就是联系youtube.com,请求许可,以及如何获得URLsHi@SebastianNagel的全面列表。我理解你的意思。现在你能看一下我发送的请求吗?:)“抓取整个youtube.com”——youtube上的视频数量达到数十亿。一个有礼貌的爬虫,每秒在网页上抓取,每年将下载3000万。要爬上第一个十亿需要30年的时间。如果你的意思是“整体”,而不是数百万个样本,那么最好的方法就是联系youtube.com,请求许可,以及如何获得URLsHi@SebastianNagel的全面列表。我理解你的意思。现在你能看一下我发送的请求吗?:)