Web crawler Rapidminer Web爬行不'；t商店网站（Kickstarter）_Web Crawler_Rapidminer

Web crawler Rapidminer Web爬行不'；t商店网站（Kickstarter）

web-crawler

Web crawler Rapidminer Web爬行不'；t商店网站（Kickstarter）,web-crawler,rapidminer,Web Crawler,Rapidminer,我正在从事一个网络爬网项目，通过Rapidminer 5/6中的文本挖掘来分析各种众筹网站的项目。我已经建立了一个工作的文本分析器，但我被困在网页爬行部分。问题是网络爬虫确实会爬过请求的站点，但不会存储它们。我试过尝试页面大小、深度等，但程序还是跳过了这些站点。可能是我的存储规则有问题。当尝试爬过Kickstarter的网站时，它们看起来如下所示：跟随匹配的URL： https://www\.kickstarter\.com\/projects.+ http://www\.kickstart

我正在从事一个网络爬网项目，通过Rapidminer 5/6中的文本挖掘来分析各种众筹网站的项目。我已经建立了一个工作的文本分析器，但我被困在网页爬行部分。问题是网络爬虫确实会爬过请求的站点，但不会存储它们。我试过尝试页面大小、深度等，但程序还是跳过了这些站点。可能是我的存储规则有问题。当尝试爬过Kickstarter的网站时，它们看起来如下所示：

跟随匹配的URL：

https://www\.kickstarter\.com\/projects.+

http://www\.kickstarter\.com\/projects.+

(?i)http.*://www\.kickstarter\.com\/projects.+

.+kickstarter+

具有匹配URL的存储：

https://www\.kickstarter\.com\/projects.+

http://www\.kickstarter\.com\/projects.+

(?i)http.*://www\.kickstarter\.com\/projects.+

需要存储的URL示例如下：

http://www.kickstarter.com/projects/corvuse/bhaloidam-an-indie-tabletop-storytelling-game?ref=spotlight

（无广告宣传）

日志如下所示：

Mar 12, 2014 11:50:37 AM INFO: Following link http://www.kickstarter.com/projects/corvuse/bhaloidam-an-indie-tabletop-storytelling-game?ref=spotlight
Mar 12, 2014 11:50:37 AM INFO: Following link http://kickstarter.tumblr.com/post/12036057734/todays-project-of-the-day-is-bhaloidam-an-indie
Mar 12, 2014 11:50:37 AM INFO: Following link http://kickstarter.tumblr.com/tagged/bhaloidam
Mar 12, 2014 11:50:38 AM INFO: Discarded page "http://kickstarter.tumblr.com/post/79165806431/do-you-like-coloring-and-also-have-questions" because url does not match filter rules.

如您所见，它遵循流程，只跳过这些链接，甚至没有说它与筛选规则不匹配，因此被丢弃，因此我甚至不确定在这些情况下程序是否会将链接与规则进行比较。我在日志中看到很多链接前面都有（“Following link…”），但很少有链接前面有（“Discarded page…”）。这是否意味着它只是检查了几页，或者只是它不会通知我每一个丢弃的页面？我可以手动保存这些项目的站点，但可以理解的是，我不想用数百个站点来保存这些站点

我还为Indiegogo构建了一个模型，如果我只使用第三个存储规则（并删除前两个），同样的模型也可以工作。因此，我认为这也是我的Kickstarter模型的问题，但这种方式也没有运气

提前谢谢

干杯

您只能有一条门店规则。这就是为什么只有第三个正则表达式时它才起作用。但是，您可以将三个存储正则表达式组合为一个：

https://www\.kickstarter\.com\/projects.+|http://www\.kickstarter\.com\/projects.+|(?i)http.*://www\.kickstarter\.com\/projects.+

有趣的项目，顺便说一句。如果你能给我们发封邮件，告诉我们更多信息，那就太好了。

是的，我试过了（只使用第三条规则），但遗憾的是，无论是这一点，还是你的解决方案都不起作用，它仍然会跳过这些网站。我没有收到关于存储或丢弃页面的消息。无论如何谢谢你！关于这个项目，其实没什么大不了的。我现在正在写一篇关于众筹项目的论文，并决定通过构建一个模型，通过标记化、停止词过滤、词干分析和其他基本的文本挖掘操作，按主题（主要是一些关键词的出现，如“艺术”、“商业”、“技术”或“音乐”）对网站进行分析，从而赋予它一些it优势。