Ruby on rails 使用Ruby on Rails进行屏幕抓取

Ruby on rails 使用Ruby on Rails进行屏幕抓取,ruby-on-rails,Ruby On Rails,我是RoR的新手。我想开发一个rails应用程序,它可以从我的rails应用程序中搜索航班信息,从不同的航空公司网站获取航班信息作为例子;亚洲航空公司和马来西亚航空公司。在我的rails应用程序中显示这些结果。 我的搜索模块应包括以下文本字段: From: Kuala Lumpur To: Dubai Departure Date:2/11/2009 Return date: 19/11/2009 Departure Time: 12:00 Number of tickets: 2 用户可以在

我是RoR的新手。我想开发一个rails应用程序,它可以从我的rails应用程序中搜索航班信息,从不同的航空公司网站获取航班信息作为例子;亚洲航空公司和马来西亚航空公司。在我的rails应用程序中显示这些结果。 我的搜索模块应包括以下文本字段:

From: Kuala Lumpur
To: Dubai
Departure Date:2/11/2009
Return date: 19/11/2009
Departure Time: 12:00
Number of tickets: 2
用户可以在我的网站上输入上述信息,并 脚本应该根据不同航空公司网站上的信息搜索航班 显示结果以及提供此航班的航空公司的标签

可以使用Scrapi或Scrubyt

有人能提供帮助吗

不要。另找一个快速致富的计划。或者至少不要依赖于屏幕刮削

很有可能出问题。找到另一种方法来获取要聚合的信息。如果存在API,则使用API,并将计划存储在数据库中,这些数据库每周很少更改。在本地存储东西可以让您的客户更快地完成工作,还可以让您提供更多的服务

以下是屏幕刮片的几个潜在问题:

对你正在抓取的站点进行的微小更新可能会破坏你的工具。 可以拒绝从服务器的IP进行刮取尝试。 根据这些信息,你甚至可能被起诉。
要开始刮削,您可以参考以下帖子-

使用Mechanize、Hpricot和XPath的简单Ruby屏幕刮刀

简单的Ruby屏幕刮刀,只需5行,无需使用XPath

这只是为了理解cough cough watir webdriver gem


DOM无法隐藏

您是否有特定的问题,或者您是否希望其他人为您编写所有内容?我只想从硬件开始,bt我不介意您是否可以为我编写它。虽然一些开发人员可能会对刮削不满,但您的问题被否决的原因并不是因为刮削不好,但因为你似乎不知道自己在做什么。你给我们看纯文本作为例子。屏幕抓取涉及使用实际的html源代码通过元素的属性和属性值来选择元素。您可以使用纯文本通知scrape脚本,但它总是需要更多的信息,即。标签div、属性id、值id=3和/或text..>sdfd的上下文。研究watirwebdriver。