种子URL以爬网整个Youtube_Youtube_Web Crawler_Nutch

种子URL以爬网整个Youtube

youtube web-crawler

种子URL以爬网整个Youtube,youtube,web-crawler,nutch,Youtube,Web Crawler,Nutch,我正试图用ApacheNutch抓取整个youtube.com。问题是我需要大量的种子URL来确保几乎所有Youtube的URL都被爬网。但我找不到youtube的任何网站地图或URL列表。例如，为了抓取apple.com，我可以提供苹果网站的stiemap的URL作为种子- 目前我唯一的种子是-https://www.youtube.com。我的regex urlfilter.txt包含- +^https://www.youtube.com/?(watch\\?([^#\\&\\?]

我正试图用ApacheNutch抓取整个youtube.com。问题是我需要大量的种子URL来确保几乎所有Youtube的URL都被爬网。但我找不到youtube的任何网站地图或URL列表。例如，为了抓取

apple.com

，我可以提供苹果网站的stiemap的URL作为种子-

目前我唯一的种子是-

https://www.youtube.com

。我的

regex urlfilter.txt

包含-

+^https://www.youtube.com/?(watch\\?([^#\\&\\?]*).*)?$

我尝试了很好的搜索，比如

filetype:xml-site:youtube.com

，但什么也没出现

有人能帮我找到一种方法，收集种子到youtube.com上爬网吗？

这是我得到的网站地图：

来自robots.txt。尝试跟踪从一个主页到另一个主页的传出链接

然后迭代地进行

这是我得到的网站地图：

来自robots.txt。尝试跟踪从一个主页到另一个主页的传出链接

然后迭代地进行

“抓取整个youtube.com”——youtube上的视频数量达到数十亿。一个有礼貌的爬虫，每秒在网页上抓取，每年将下载3000万。要爬上第一个十亿需要30年的时间。如果你的意思是“整体”，而不是数百万个样本，那么最好的方法就是联系youtube.com，请求许可，以及如何获得URLsHi@SebastianNagel的全面列表。我理解你的意思。现在你能看一下我发送的请求吗？：）“抓取整个youtube.com”——youtube上的视频数量达到数十亿。一个有礼貌的爬虫，每秒在网页上抓取，每年将下载3000万。要爬上第一个十亿需要30年的时间。如果你的意思是“整体”，而不是数百万个样本，那么最好的方法就是联系youtube.com，请求许可，以及如何获得URLsHi@SebastianNagel的全面列表。我理解你的意思。现在你能看一下我发送的请求吗？：）