Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/javascript/416.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Javascript 屏幕抓取/解析帮助_Javascript_Html_Ajax_Parsing_Scrape - Fatal编程技术网

Javascript 屏幕抓取/解析帮助

Javascript 屏幕抓取/解析帮助,javascript,html,ajax,parsing,scrape,Javascript,Html,Ajax,Parsing,Scrape,例如,我一直试图从hotels.com上搜集并最终解析一些特定于可用性和价格的数据。问题是,一旦您选择了夜数并选择BookNow,URL字符串中就不会传递任何内容。这一切都是通过Ajax完成的,我相信我无法直接进入特定的日期或时间范围 我曾尝试过浏览器模拟器,如Selenium、IRobotSoft和FakeApp,尽管我确实让Selenium和Fake做了很多捕获完整源代码的工作,但当我不得不每天使用其他软件多页进行抓取和解析时,这很难看,也很乏味 我还尝试过HTMLDOM解析器、PHP脚本式

例如,我一直试图从hotels.com上搜集并最终解析一些特定于可用性和价格的数据。问题是,一旦您选择了夜数并选择BookNow,URL字符串中就不会传递任何内容。这一切都是通过Ajax完成的,我相信我无法直接进入特定的日期或时间范围

我曾尝试过浏览器模拟器,如Selenium、IRobotSoft和FakeApp,尽管我确实让Selenium和Fake做了很多捕获完整源代码的工作,但当我不得不每天使用其他软件多页进行抓取和解析时,这很难看,也很乏味

我还尝试过HTMLDOM解析器、PHP脚本式Web浏览器、HTMLUnit、cScrape.PHP和Crowbar。要么他们无法处理Ajax,要么我连让他们运行的运气都没有

理想情况下,我希望能够从服务器上运行一些东西,并尽可能减少依赖项,但在这一点上,我只希望让它运行

在花了好几个小时试图让它工作之后。我仍然觉得我不知道从哪里开始。谁能给我指一下正确的方向吗?。我应该回去花更多的时间和它在一起吗?对于这样的站点,什么是最佳实践

谢谢

我真的很喜欢atm服务器端javascript,如果你不熟悉的话,这就是我推荐的。使用它来抓取站点最棒的是,你可以使用jQuery或任何你最喜欢的JS框架来解析你想要的信息!请参阅以下参考资料以开始:


我发现了快速性http://celerity.rubyforge.org,这是一个JRuby库,在引擎盖下使用HTMLUnit,是一个非常健壮的通过Web进行数据采集的解决方案

我发现,与成熟的Java HTMLUnit相比,快速开发Ruby要快得多。此外,由于快速的HTMLUnit包装-我能够下降到HTMLUnit,因为我需要做一些更重的举重

我成功地使用了丰富的DHTML以及利用Ajax的站点;虽然我做了一些睡眠调用来等待Ajax响应,但一切都按预期进行


试试看

您所指的页面似乎没有使用AJAX。相反,您所指的AJAX是POST请求,而不是url中传递的内容,后者是GET请求。我建议你们仔细研究一下它们之间的区别。试着去理解到底发生了什么,这比依赖第三方工具更重要,因为第三方工具可能会变得非常死板

安装Firebug并观察POST请求中发送的变量。 现在用你最喜欢的编程语言做同样的事情。解析POST请求的响应HTML以获取必要的信息


另外,+1感谢您努力尝试了这么多不同的解决方案,并且没有放弃。

哇,Jquery很棒,我会尝试一下,谢谢。感谢您的帮助,这现在更有意义了。