Web Rapid Miner不保存爬网结果

Web Rapid Miner不保存爬网结果,web,web-crawler,rapidminer,mining,Web,Web Crawler,Rapidminer,Mining,我正在尝试从IMDB网站抓取一个特定电影评论的评论。为此,我使用了爬网,我已经嵌入了循环中,因为有74页 附件是配置的图像。请帮忙。我陷入了困境 爬网网站的URL为:http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos} 当我尝试时,我得到了403禁止的错误,因为IMDB服务认为我是一个机器人。将循环与爬网一起使用是不好的做法,因为循环操作员不执行任何等待 此过程可以简化为仅由爬网操作员执行。关键参数包括: URL-将此设置为

我正在尝试从IMDB网站抓取一个特定电影评论的评论。为此,我使用了爬网,我已经嵌入了循环中,因为有74页

附件是配置的图像。请帮忙。我陷入了困境

爬网网站的URL为:http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}


当我尝试时,我得到了
403禁止的
错误,因为IMDB服务认为我是一个机器人。将
循环
爬网
一起使用是不好的做法,因为
循环
操作员不执行任何等待

此过程可以简化为仅由
爬网
操作员执行。关键参数包括:

  • URL-将此设置为
  • 最大页数-设置为79页或任何你需要的数字
  • 最大页面大小-将其设置为1000
  • 爬网规则-将这些规则设置为您指定的规则
  • output dir-选择一个文件夹来存储内容
这是因为爬网操作员将计算出所有与规则匹配的可能URL,并存储那些也匹配的URL。访问将延迟1000毫秒(延迟参数),以避免触发服务器上的机器人排除


希望这能让您开始。

我已经将宏初始化为值0,并在每次迭代中添加10,因为用于评论的网页是等等。这就是为什么我在每个循环中使用10个增量来获取所有评论。您能指导我如何修改执行顺序吗?此外,我已在上下文选项卡中将宏初始化为宏名称“pagePos”,将值初始化为“0”。你能告诉我循环中的执行顺序是什么吗???还有什么应该是爬行规则,因为我只需要获取评论??我只是Rapidminer的初学者,所以请帮助我。当前流程给出403个错误。原因可能是在直接访问URL的紧密循环中不正确地使用了
爬行Web
。可以简化该过程,以避免使用
循环
操作符。我已经更新了我的答案。