Web crawler 从站点获取URL列表

Web crawler 从站点获取URL列表,web-crawler,Web Crawler,我正在为客户端部署一个替换站点,但他们不希望所有旧页面都以404结尾。保留旧的URL结构是不可能的,因为它太可怕了 因此,我正在编写一个404处理程序,它应该查找被请求的旧页面,并永久重定向到新页面。问题是,我需要一个所有旧页面URL的列表 我可以手动完成这项工作,但我很感兴趣的是,是否有任何应用程序可以为我提供一个相对(例如:/page/path,而不是http:/…/page/path)URL列表,只要给出主页即可。就像一只蜘蛛,但它不关心内容,只关心寻找更深的页面。我不是想回答我自己的问题

我正在为客户端部署一个替换站点,但他们不希望所有旧页面都以404结尾。保留旧的URL结构是不可能的,因为它太可怕了

因此,我正在编写一个404处理程序,它应该查找被请求的旧页面,并永久重定向到新页面。问题是,我需要一个所有旧页面URL的列表


我可以手动完成这项工作,但我很感兴趣的是,是否有任何应用程序可以为我提供一个相对(例如:/page/path,而不是http:/…/page/path)URL列表,只要给出主页即可。就像一只蜘蛛,但它不关心内容,只关心寻找更深的页面。

我不是想回答我自己的问题,但我只是想运行一个站点地图生成器。我发现的第一个有很好的文本输出。非常适合我的需要。

编写一个spider,从磁盘读取每个html,并输出“a”元素的每个“href”属性(可以通过解析器完成)。记住哪些链接属于某个页面(这是MultiMap数据结构的常见任务)。在此之后,您可以生成一个映射文件,作为404处理程序的输入。

因此,在理想的情况下,您的站点中的所有页面都有一个规范。您还将拥有一个测试基础设施,可以访问所有页面进行测试

你大概不是在一个理想的世界里。为什么不这样做

  • 在油井之间创建映射 已知的旧URL和新URL。 看到旧URL时重定向。 我可能会考虑提出一个 “此页面已移动,它是新的url 是XXX,您将被重定向 不久”

  • 如果没有映射,请提供一个 “抱歉-此页面已移动。这是 主页的链接“消息和” 如果你愿意,重定向它们

  • 记录所有重定向-尤其是 没有映射的。随着时间的推移,添加 用于以下页面的映射: 重要的


  • linux机器上的wget可能也是一个不错的选择,因为有一些开关可以切换到spider并更改其输出


    编辑:wget也可在Windows上使用:

    do
    wget-r-l0 www.oldsite.com

    然后只要
    查找www.oldsite.com
    就会显示所有URL,我相信

    或者,只需在每个404请求上提供自定义未找到页面!
    也就是说,如果有人使用了错误的链接,他会得到一个页面,告诉他找不到该页面,并对网站的内容做出一些提示。

    我会查看任何数量的在线网站地图生成工具。就我个人而言,我过去使用过(基于java的),但是如果你在谷歌上搜索“sitemap builder”,我相信你会发现很多不同的选项。

    这里是一个站点地图生成器列表(显然你可以从中获得站点URL列表):

    网站地图生成器

    以下是指向在中生成或维护文件的工具的链接 XML站点地图格式,一个在Sitemaps.org上定义的开放标准,以及 由Ask、Google、Microsoft Live等搜索引擎支持 搜索和雅虎!。站点地图文件通常包含 网站上的URL以及这些URL的一些元数据。这个 以下工具通常生成“web类型”XML站点地图和URL列表 文件(某些文件可能还支持其他格式)

    请注意:谷歌还没有测试或验证这些功能 本网站上列出的第三方软件的安全性。请 将有关软件的任何问题直接告知软件作者。 我们希望您喜欢这些工具

    服务器端程序

    • Enarion Phpsitemapsing(菲律宾)
    • Google站点地图生成器(Linux/Windows,32/64位,开源)
    • Outil en PHP(法语、菲律宾语)
    • Perl站点地图生成器(Perl)
    • Python站点地图生成器(Python)
    • 简单网站地图(PHP)
    • 站点地图XML动态站点地图生成器(PHP)$
    • OS/2站点地图生成器(REXX脚本)
    • XML站点地图生成器(PHP)$
    CMS和其他插件:

    • ASP.NET-站点地图.NET
    • DotClear(西班牙语)
    • 多特克利尔(2)
    • 德鲁帕尔
    • 电子商务模板(PHP)$
    • 电子商务模板(PHP或ASP)$
    • 生活型
    • MediaWiki站点地图生成器
    • MNOGO搜索
    • 操作系统商务
    • 辉绿岩
    • 普隆
    • 快艇
    • 文本模式
    • vBulletin
    • Wikka Wiki(PHP)
    • WordPress
    可下载工具

    • GSiteCrawler(Windows)
    • GWebCrawler和站点地图创建者(Windows)
    • G-Mapper(Windows)
    • Inspyder站点地图创建者(Windows)$
    • 智能映射器(Windows)$
    • Microsys A1站点地图生成器(Windows)$
    • Rage Google站点地图自动程序$(OS-X)
    • 尖叫蛙SEO蜘蛛和站点地图生成器(Windows/Mac)$
    • 站点地图专业版(Windows)$
    • 站点地图编写器(Windows)$
    • DeviceIntelligence网站地图生成器(Windows)
    • 索勒曼网站地图工具(Windows)
    • 项目标签(Windows)$
    • Vigos Gsitemap(Windows)
    • Visual SEO Studio(Windows)
    • WebDesignPros站点地图生成器(Java Webstart应用程序)
    • Weblight(Windows/Mac)$
    • WonderWebWare站点地图生成器(Windows)
    在线发电机/服务

    • AuditMyPc.com网站地图生成器
    • 自动坑
    • 自动项目地图$
    • 伊那里奥肺水肿
    • 免费站点地图生成器
    • NeurticWeb.com网站地图生成器
    • ROR站点地图生成器
    • 脚本套接字站点地图生成器
    • SeoUtility站点地图生成器(意大利语)
    • SitemapDoc
    • 站点地图
    • 站点地图提交
    • 智能IT咨询Google Sitemaps XML验证程序
    • XML站点地图生成器
    • XML站点地图生成器
    带有集成站点地图生成器的CMS