Web crawler Web爬行与链接评估

Web crawler Web爬行与链接评估,web-crawler,Web Crawler,我知道cURL将下载一个完整的文件 我真正想要的是获取页面上的所有链接,并根据我的特定标准、链接位置等进行评估,然后决定是否应该获取该页面并对其进行解析以获取信息 更具体地说,我希望找到与娱乐活动相关的链接,解析数据并将其存储在我的MySQL数据库中,以便为我所在地区的活动填充网站 有人会想到如何实现这一目标吗 -Jason我建议您将工作建立在现有的web爬虫/索引器解决方案上,而不是自己在代码中或使用诸如CURL之类的工具来实现它 例如,请参见。我建议您基于现有的web爬虫/索引器解决方案,而

我知道cURL将下载一个完整的文件

我真正想要的是获取页面上的所有链接,并根据我的特定标准、链接位置等进行评估,然后决定是否应该获取该页面并对其进行解析以获取信息

更具体地说,我希望找到与娱乐活动相关的链接,解析数据并将其存储在我的MySQL数据库中,以便为我所在地区的活动填充网站

有人会想到如何实现这一目标吗


-Jason

我建议您将工作建立在现有的web爬虫/索引器解决方案上,而不是自己在代码中或使用诸如CURL之类的工具来实现它


例如,请参见。

我建议您基于现有的web爬虫/索引器解决方案,而不是自己在代码中或使用诸如CURL之类的工具来实现它


例如,请参见。

如果您只想枚举页面上的链接,则可以使用.NET WebBrowser和DOM来完成此操作。正在为此挖掘我的代码。。。我会再打给你。

如果你只想列举页面上的链接,你可以使用.NET WebBrowser和DOM来完成。正在为此挖掘我的代码。。。我会再打给你。

你没有指定编程语言。如果您愿意使用Java对其进行定制,这可能是您的理想选择。它计划作为一个最小的爬虫程序,您可以根据自己的特定需要进行自定义。

您没有指定编程语言。如果您愿意使用Java对其进行定制,这可能是您的理想选择。它计划作为一个最小的爬虫程序,您可以根据自己的具体需求进行定制。

其他答案中的解决方案听起来很有趣,但我只是用and做了一些类似和简单的事情。

其他答案中的解决方案听起来很有趣,但我只是用and做了一些类似和简单的事情。

如上所述,你没有提到一种语言。如果您使用的是Ruby,那么可以使用蛛网宝石。您可以手动告诉它不要找到任何链接(默认情况下,它会自动抓取所有链接),并在每个页面上自己执行此操作,因为您需要对它们进行评估,如果您希望对它们进行抓取,则可以手动将它们放入队列中

看起来好像RubyonRails是由godaddy共享主机支持的,如果这是您的


(刚刚看到这是3年前的事了,不过可能会帮助其他人!)

如上所述,您没有提到语言。如果您使用的是Ruby,那么可以使用蛛网宝石。您可以手动告诉它不要找到任何链接(默认情况下,它会自动抓取所有链接),并在每个页面上自己执行此操作,因为您需要对它们进行评估,如果您希望对它们进行抓取,则可以手动将它们放入队列中

看起来好像RubyonRails是由godaddy共享主机支持的,如果这是您的


(刚刚看到这是3年前的事了,不过可能会帮助其他人!)

如何在GoDaddy的共享服务器上部署此功能?第二,在具有静态IP的mac mini上如何部署此功能?如何在GoDaddy的共享服务器上部署此功能?第二,在具有静态IP的mac mini上如何部署此功能?