Web Rapid Miner不保存爬网结果_Web_Web Crawler_Rapidminer_Mining

Web Rapid Miner不保存爬网结果

web web-crawler

Web Rapid Miner不保存爬网结果,web,web-crawler,rapidminer,mining,Web,Web Crawler,Rapidminer,Mining,我正在尝试从IMDB网站抓取一个特定电影评论的评论。为此，我使用了爬网，我已经嵌入了循环中，因为有74页附件是配置的图像。请帮忙。我陷入了困境爬网网站的URL为：http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos} 当我尝试时，我得到了403禁止的错误，因为IMDB服务认为我是一个机器人。将循环与爬网一起使用是不好的做法，因为循环操作员不执行任何等待此过程可以简化为仅由爬网操作员执行。关键参数包括： URL-将此设置为

我正在尝试从IMDB网站抓取一个特定电影评论的评论。为此，我使用了爬网，我已经嵌入了循环中，因为有74页

附件是配置的图像。请帮忙。我陷入了困境

爬网网站的URL为：http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}

当我尝试时，我得到了

403禁止的

错误，因为IMDB服务认为我是一个机器人。将

循环

与

爬网

一起使用是不好的做法，因为

循环

操作员不执行任何等待

此过程可以简化为仅由

爬网

操作员执行。关键参数包括：

URL-将此设置为
最大页数-设置为79页或任何你需要的数字
最大页面大小-将其设置为1000
爬网规则-将这些规则设置为您指定的规则
output dir-选择一个文件夹来存储内容

这是因为爬网操作员将计算出所有与规则匹配的可能URL，并存储那些也匹配的URL。访问将延迟1000毫秒（延迟参数），以避免触发服务器上的机器人排除

希望这能让您开始。

我已经将宏初始化为值0，并在每次迭代中添加10，因为用于评论的网页是等等。这就是为什么我在每个循环中使用10个增量来获取所有评论。您能指导我如何修改执行顺序吗？此外，我已在上下文选项卡中将宏初始化为宏名称“pagePos”，将值初始化为“0”。你能告诉我循环中的执行顺序是什么吗？？？还有什么应该是爬行规则，因为我只需要获取评论？？我只是Rapidminer的初学者，所以请帮助我。当前流程给出403个错误。原因可能是在直接访问URL的紧密循环中不正确地使用了

爬行Web

。可以简化该过程，以避免使用

循环

操作符。我已经更新了我的答案。