使用javascript的更高级别网页I/O(类似于使用shell脚本的文件I/O)?

使用javascript的更高级别网页I/O(类似于使用shell脚本的文件I/O)?,javascript,dom,io,screen-scraping,Javascript,Dom,Io,Screen Scraping,我正在尝试做的事情(请不要提供其他建议,我知道更传统的解决方案)无需编写任何特定于站点的代码(例如,在特定URL上获取最大的图像),即可轻松从网页(如图像)中获取数据。这只是一种可能性 我的梦想(也用于其他用途) 我知道您可以使用许多使用DOM模型的API进行刮取。但肯定有人想到了更高层次的东西?shell脚本最吸引人的地方之一是,您可以使用基本命令对基本文件I/O进行数据操作:Grep plus正则表达式(awk、sed、perl)可以立即让您接触到基于文件的数据的金矿。就像shell脚本对于

我正在尝试做的事情(请不要提供其他建议,我知道更传统的解决方案)无需编写任何特定于站点的代码(例如,在特定URL上获取最大的图像),即可轻松从网页(如图像)中获取数据。这只是一种可能性

我的梦想(也用于其他用途) 我知道您可以使用许多使用DOM模型的API进行刮取。但肯定有人想到了更高层次的东西?shell脚本最吸引人的地方之一是,您可以使用基本命令对基本文件I/O进行数据操作:Grep plus正则表达式(awk、sed、perl)可以立即让您接触到基于文件的数据的金矿。就像shell脚本对于文件一样,javascript对于网页也应该如此。但是,当您通过标记和属性来处理问题时,代码会变得非常混乱。如果有这样的API不是很好吗

# determine the biggest image by checking images[0].height etc.
$("< http://www.cnn.com/man-has-three-eyes.html").images[0].url
#通过检查图像[0]。高度等来确定最大的图像。
$("< http://www.cnn.com/man-has-three-eyes.html“”。图像[0]。url
有人尝试过这样的API吗?我猜不是。如果不是,是什么让这在技术上不现实?如果是这样,什么样的javascript框架最接近于提供这种功能


(如果没有,我应该申请商标保护,商标名为“Scrapy Eye”或“ScrAPI”或其他!)

您是否尝试过无头浏览器,例如?哦,不,我尝试了基于javascript的无头浏览器(仅java)。我不知道这是可能的。我现在正在看PhantomJS,但我看不到一个确定页面中所有图像的简单方法。你在哪儿看到它了吗?或者另一个框架可以做到这一点?请参阅“代码评估”部分。获取文档对象后,您可以像在任何浏览器上一样,使用document.images[0].src获取第一个图像URL。谢谢。我试试看。