Web crawler Web爬行与链接评估_Web Crawler

Web crawler Web爬行与链接评估

web-crawler

Web crawler Web爬行与链接评估,web-crawler,Web Crawler,我知道cURL将下载一个完整的文件我真正想要的是获取页面上的所有链接，并根据我的特定标准、链接位置等进行评估，然后决定是否应该获取该页面并对其进行解析以获取信息更具体地说，我希望找到与娱乐活动相关的链接，解析数据并将其存储在我的MySQL数据库中，以便为我所在地区的活动填充网站有人会想到如何实现这一目标吗 -Jason我建议您将工作建立在现有的web爬虫/索引器解决方案上，而不是自己在代码中或使用诸如CURL之类的工具来实现它例如，请参见。我建议您基于现有的web爬虫/索引器解决方案，而

我知道cURL将下载一个完整的文件

我真正想要的是获取页面上的所有链接，并根据我的特定标准、链接位置等进行评估，然后决定是否应该获取该页面并对其进行解析以获取信息

更具体地说，我希望找到与娱乐活动相关的链接，解析数据并将其存储在我的MySQL数据库中，以便为我所在地区的活动填充网站

有人会想到如何实现这一目标吗

-Jason

我建议您将工作建立在现有的web爬虫/索引器解决方案上，而不是自己在代码中或使用诸如CURL之类的工具来实现它

例如，请参见。

我建议您基于现有的web爬虫/索引器解决方案，而不是自己在代码中或使用诸如CURL之类的工具来实现它

例如，请参见。

如果您只想枚举页面上的链接，则可以使用.NET WebBrowser和DOM来完成此操作。正在为此挖掘我的代码。。。我会再打给你。

如果你只想列举页面上的链接，你可以使用.NET WebBrowser和DOM来完成。正在为此挖掘我的代码。。。我会再打给你。

你没有指定编程语言。如果您愿意使用Java对其进行定制，这可能是您的理想选择。它计划作为一个最小的爬虫程序，您可以根据自己的特定需要进行自定义。

您没有指定编程语言。如果您愿意使用Java对其进行定制，这可能是您的理想选择。它计划作为一个最小的爬虫程序，您可以根据自己的具体需求进行定制。

其他答案中的解决方案听起来很有趣，但我只是用and做了一些类似和简单的事情。

如上所述，你没有提到一种语言。如果您使用的是Ruby，那么可以使用蛛网宝石。您可以手动告诉它不要找到任何链接（默认情况下，它会自动抓取所有链接），并在每个页面上自己执行此操作，因为您需要对它们进行评估，如果您希望对它们进行抓取，则可以手动将它们放入队列中

看起来好像RubyonRails是由godaddy共享主机支持的，如果这是您的

（刚刚看到这是3年前的事了，不过可能会帮助其他人！）

如上所述，您没有提到语言。如果您使用的是Ruby，那么可以使用蛛网宝石。您可以手动告诉它不要找到任何链接（默认情况下，它会自动抓取所有链接），并在每个页面上自己执行此操作，因为您需要对它们进行评估，如果您希望对它们进行抓取，则可以手动将它们放入队列中

看起来好像RubyonRails是由godaddy共享主机支持的，如果这是您的

（刚刚看到这是3年前的事了，不过可能会帮助其他人！）

如何在GoDaddy的共享服务器上部署此功能？第二，在具有静态IP的mac mini上如何部署此功能？如何在GoDaddy的共享服务器上部署此功能？第二，在具有静态IP的mac mini上如何部署此功能？