Javascript 屏幕抓取/解析帮助
例如,我一直试图从hotels.com上搜集并最终解析一些特定于可用性和价格的数据。问题是,一旦您选择了夜数并选择BookNow,URL字符串中就不会传递任何内容。这一切都是通过Ajax完成的,我相信我无法直接进入特定的日期或时间范围 我曾尝试过浏览器模拟器,如Selenium、IRobotSoft和FakeApp,尽管我确实让Selenium和Fake做了很多捕获完整源代码的工作,但当我不得不每天使用其他软件多页进行抓取和解析时,这很难看,也很乏味 我还尝试过HTMLDOM解析器、PHP脚本式Web浏览器、HTMLUnit、cScrape.PHP和Crowbar。要么他们无法处理Ajax,要么我连让他们运行的运气都没有 理想情况下,我希望能够从服务器上运行一些东西,并尽可能减少依赖项,但在这一点上,我只希望让它运行 在花了好几个小时试图让它工作之后。我仍然觉得我不知道从哪里开始。谁能给我指一下正确的方向吗?。我应该回去花更多的时间和它在一起吗?对于这样的站点,什么是最佳实践 谢谢我真的很喜欢atm服务器端javascript,如果你不熟悉的话,这就是我推荐的。使用它来抓取站点最棒的是,你可以使用jQuery或任何你最喜欢的JS框架来解析你想要的信息!请参阅以下参考资料以开始:Javascript 屏幕抓取/解析帮助,javascript,html,ajax,parsing,scrape,Javascript,Html,Ajax,Parsing,Scrape,例如,我一直试图从hotels.com上搜集并最终解析一些特定于可用性和价格的数据。问题是,一旦您选择了夜数并选择BookNow,URL字符串中就不会传递任何内容。这一切都是通过Ajax完成的,我相信我无法直接进入特定的日期或时间范围 我曾尝试过浏览器模拟器,如Selenium、IRobotSoft和FakeApp,尽管我确实让Selenium和Fake做了很多捕获完整源代码的工作,但当我不得不每天使用其他软件多页进行抓取和解析时,这很难看,也很乏味 我还尝试过HTMLDOM解析器、PHP脚本式
我发现了快速性http://celerity.rubyforge.org,这是一个JRuby库,在引擎盖下使用HTMLUnit,是一个非常健壮的通过Web进行数据采集的解决方案 我发现,与成熟的Java HTMLUnit相比,快速开发Ruby要快得多。此外,由于快速的HTMLUnit包装-我能够下降到HTMLUnit,因为我需要做一些更重的举重 我成功地使用了丰富的DHTML以及利用Ajax的站点;虽然我做了一些睡眠调用来等待Ajax响应,但一切都按预期进行
试试看 您所指的页面似乎没有使用AJAX。相反,您所指的AJAX是POST请求,而不是url中传递的内容,后者是GET请求。我建议你们仔细研究一下它们之间的区别。试着去理解到底发生了什么,这比依赖第三方工具更重要,因为第三方工具可能会变得非常死板 安装Firebug并观察POST请求中发送的变量。 现在用你最喜欢的编程语言做同样的事情。解析POST请求的响应HTML以获取必要的信息
另外,+1感谢您努力尝试了这么多不同的解决方案,并且没有放弃。哇,Jquery很棒,我会尝试一下,谢谢。感谢您的帮助,这现在更有意义了。