包含150万页的URL的XML站点地图生成器?

包含150万页的URL的XML站点地图生成器?,xml,sitemap,Xml,Sitemap,我正在尝试为《彭博商业周刊》创建一个XML网站地图,特别是以以下内容开头的所有页面: 据我所知,大约有150万页以这个前缀开头。甚至可以为这么多页面创建XML站点地图吗?是的,这是可能的。这只是一个编写爬虫程序(如果您无法访问包含内容的数据库)和生成xml文件的问题。(不要使用基于DOM的XML api,因为大文件会占用内存) 但是,对于最小100 MB的文件[1],您想做什么呢 我认为这个文件一点帮助都没有 1) 解释: 1.500.000 pages * (length of URL +

我正在尝试为《彭博商业周刊》创建一个XML网站地图,特别是以以下内容开头的所有页面:


据我所知,大约有150万页以这个前缀开头。甚至可以为这么多页面创建XML站点地图吗?

是的,这是可能的。这只是一个编写爬虫程序(如果您无法访问包含内容的数据库)和生成xml文件的问题。(不要使用基于DOM的XML api,因为大文件会占用内存)

但是,对于最小
100 MB的文件[1],您想做什么呢

我认为这个文件一点帮助都没有

1) 解释:

1.500.000 pages * (length of URL + 100 Bytes XML overhead)

是的,这是可能的。这只是一个编写爬虫程序(如果您无法访问包含内容的数据库)和生成xml文件的问题。(不要使用基于DOM的XML api,因为大文件会占用内存)

但是,对于最小
100 MB的文件[1],您想做什么呢

我认为这个文件一点帮助都没有

1) 解释:

1.500.000 pages * (length of URL + 100 Bytes XML overhead)

最终,我需要XML文件,以便提取嵌入URL中的标识号。本网站涵盖的每个公司都有自己的页面,因此理论上,URL以我的示例开头的所有页面的XML文件都将包含他们涵盖的每个公司的ID号。有没有这样的产品?我尝试了一个产品,但在收集了大约500000页之后,它的资源就用完了。最终,我想要XML文件,这样我就可以提取嵌入URL中的标识号。本网站涵盖的每个公司都有自己的页面,因此理论上,URL以我的示例开头的所有页面的XML文件都将包含他们涵盖的每个公司的ID号。有没有这样的产品?我试过一款产品,但它在收集了大约500000页后资源不足。你可以尝试GSiteCrawler、A1 Sitemap Generator(你必须关闭一些数据收集选项,还可能需要进行一些其他配置,例如将分析/输出限制在想要的URL)和其他工具(搜索谷歌)-尝试询问供应商您可以尝试GSiteCrawler、A1站点地图生成器(您必须关闭一些数据收集选项,还可能需要进行一些其他配置,例如将分析/输出限制为所需的URL)和其他工具(搜索谷歌)-尝试询问供应商