Web Rapid Miner不保存爬网结果
我正在尝试从IMDB网站抓取一个特定电影评论的评论。为此,我使用了爬网,我已经嵌入了循环中,因为有74页 附件是配置的图像。请帮忙。我陷入了困境 爬网网站的URL为:http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}Web Rapid Miner不保存爬网结果,web,web-crawler,rapidminer,mining,Web,Web Crawler,Rapidminer,Mining,我正在尝试从IMDB网站抓取一个特定电影评论的评论。为此,我使用了爬网,我已经嵌入了循环中,因为有74页 附件是配置的图像。请帮忙。我陷入了困境 爬网网站的URL为:http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos} 当我尝试时,我得到了403禁止的错误,因为IMDB服务认为我是一个机器人。将循环与爬网一起使用是不好的做法,因为循环操作员不执行任何等待 此过程可以简化为仅由爬网操作员执行。关键参数包括: URL-将此设置为
当我尝试时,我得到了
403禁止的
错误,因为IMDB服务认为我是一个机器人。将循环
与爬网
一起使用是不好的做法,因为循环
操作员不执行任何等待
此过程可以简化为仅由爬网
操作员执行。关键参数包括:
- URL-将此设置为
- 最大页数-设置为79页或任何你需要的数字
- 最大页面大小-将其设置为1000
- 爬网规则-将这些规则设置为您指定的规则
- output dir-选择一个文件夹来存储内容
希望这能让您开始。我已经将宏初始化为值0,并在每次迭代中添加10,因为用于评论的网页是等等。这就是为什么我在每个循环中使用10个增量来获取所有评论。您能指导我如何修改执行顺序吗?此外,我已在上下文选项卡中将宏初始化为宏名称“pagePos”,将值初始化为“0”。你能告诉我循环中的执行顺序是什么吗???还有什么应该是爬行规则,因为我只需要获取评论??我只是Rapidminer的初学者,所以请帮助我。当前流程给出403个错误。原因可能是在直接访问URL的紧密循环中不正确地使用了
爬行Web
。可以简化该过程,以避免使用循环
操作符。我已经更新了我的答案。