使用javascript的更高级别网页I/O（类似于使用shell脚本的文件I/O）？_Javascript_Dom_Io_Screen Scraping

使用javascript的更高级别网页I/O（类似于使用shell脚本的文件I/O）？

javascript dom io

使用javascript的更高级别网页I/O（类似于使用shell脚本的文件I/O）？,javascript,dom,io,screen-scraping,Javascript,Dom,Io,Screen Scraping,我正在尝试做的事情（请不要提供其他建议，我知道更传统的解决方案）无需编写任何特定于站点的代码（例如，在特定URL上获取最大的图像），即可轻松从网页（如图像）中获取数据。这只是一种可能性我的梦想（也用于其他用途）我知道您可以使用许多使用DOM模型的API进行刮取。但肯定有人想到了更高层次的东西？shell脚本最吸引人的地方之一是，您可以使用基本命令对基本文件I/O进行数据操作：Grep plus正则表达式（awk、sed、perl）可以立即让您接触到基于文件的数据的金矿。就像shell脚本对于

我正在尝试做的事情（请不要提供其他建议，我知道更传统的解决方案）无需编写任何特定于站点的代码（例如，在特定URL上获取最大的图像），即可轻松从网页（如图像）中获取数据。这只是一种可能性

我的梦想（也用于其他用途） 我知道您可以使用许多使用DOM模型的API进行刮取。但肯定有人想到了更高层次的东西？shell脚本最吸引人的地方之一是，您可以使用基本命令对基本文件I/O进行数据操作：Grep plus正则表达式（awk、sed、perl）可以立即让您接触到基于文件的数据的金矿。就像shell脚本对于文件一样，javascript对于网页也应该如此。但是，当您通过标记和属性来处理问题时，代码会变得非常混乱。如果有这样的API不是很好吗

# determine the biggest image by checking images[0].height etc.
$("< http://www.cnn.com/man-has-three-eyes.html").images[0].url

#通过检查图像[0]。高度等来确定最大的图像。
$("< http://www.cnn.com/man-has-three-eyes.html“”。图像[0]。url

有人尝试过这样的API吗？我猜不是。如果不是，是什么让这在技术上不现实？如果是这样，什么样的javascript框架最接近于提供这种功能

（如果没有，我应该申请商标保护，商标名为“Scrapy Eye”或“ScrAPI”或其他！）

您是否尝试过无头浏览器，例如？哦，不，我尝试了基于javascript的无头浏览器（仅java）。我不知道这是可能的。我现在正在看PhantomJS，但我看不到一个确定页面中所有图像的简单方法。你在哪儿看到它了吗？或者另一个框架可以做到这一点？请参阅“代码评估”部分。获取文档对象后，您可以像在任何浏览器上一样，使用document.images[0].src获取第一个图像URL。谢谢。我试试看。