如何使用javascript和servlet从web站点中抓取图像

如何使用javascript和servlet从web站点中抓取图像,java,javascript,servlets,screen-scraping,Java,Javascript,Servlets,Screen Scraping,我有一个包含以下内容的网页(出于隐私目的,我更改了src标记中的URL,否则查看页面源代码是相同的): 当在浏览器中查看时,生成的页面会显示一个图像,我正在尝试刮取该图像。刮取图像后,我尝试对图像进行索引(有关图像搜索引擎的想法,请访问www.tineye.com)并存储它们。如果有人知道如何从这样的网站抓取图像,请让我知道 注意:src不包含有关图像的任何信息。。。它只使用公钥作为参数调用给定的servlet。我在上面发布的内容正是我在浏览器(Firefox)中单击“查看->页面源代码”时

我有一个包含以下内容的网页(出于隐私目的,我更改了src标记中的URL,否则查看页面源代码是相同的):


当在浏览器中查看时,生成的页面会显示一个图像,我正在尝试刮取该图像。刮取图像后,我尝试对图像进行索引(有关图像搜索引擎的想法,请访问www.tineye.com)并存储它们。如果有人知道如何从这样的网站抓取图像,请让我知道

注意:src不包含有关图像的任何信息。。。它只使用公钥作为参数调用给定的servlet。我在上面发布的内容正是我在浏览器(Firefox)中单击“查看->页面源代码”时看到的内容。当然,我已经更改了实际的URL和隐私问题的公钥,否则一切都是一样的


我似乎在一些横幅上使用了类似的技术:

JavaScript可能正在操纵DOM并添加图像。因此,图像(.jpg、.png或.gif)应该位于JavaScript文件中的某个位置,并且应该如下所示:

var image = new Image("/path/to/image.jpg");

您可以使用正则表达式从javascript代码中过滤路径和文件名。

您不应该保存HTML文件的本地副本,而应该保存javascript文件的本地副本,以查看它如何准确地将图像添加到HTML文件的DOM中。这应该可以让您了解如何构造请求以获取所需的图像。

好的,我更新了帖子以反映正在发生的事情。当我在Firefox中按View->Page Source时,我会看到如上所示的确切源代码。为了保护一些私人信息,我最初对url做了太多的修改,但我已经将其更改为更像现在的样子。页面源代码中没有其他内容,当我查看页面源代码时,我只看到上面的5行内容。您是否尝试使用下载管理器(不是firefox)下载html文件并查看了源代码?@svens我已将页面保存在本地,我在notepad++中查看了源代码,没有什么不同。这和我在firefox中看到的一样。在图像显示后,使用firebug检查DOM。如果它是通过HTML显示的,您应该在那里看到它。然后编写一些JS来查找DOM节点。(如果它是通过flash/activex/etc显示的,那么这种方法就行不通了)@Frank非常感谢!在firebug中打开源代码后,我能够看到javascript代码,并且能够找出获取图像所需的变量!一旦我有了正确的工具,那么所有其他的评论和回答都是有意义的!:)另一种方法是在浏览器中打开页面,拍摄页面快照并编写屏幕抓取代码以获取图像。我不确定是否有更简单的方法解决我的问题,但如果有,那就太好了!:)
var image = new Image("/path/to/image.jpg");