关于在Google App Engine for java中使用java.net.url的几个问题

关于在Google App Engine for java中使用java.net.url的几个问题,java,google-app-engine,Java,Google App Engine,我想使用java.net.url来抓取一些网站并检索一些数据 我对以下问题感到困惑-- (1) 假设我将爬虫配置为访问视频共享网页,例如YouTube。现在,爬虫被设置为访问特定的YouTube视频页面——这是否意味着当爬虫实际访问该页面时,它将默认下载该页面上的所有元素,包括FLV视频?或者我可以控制检索哪些文件。其目的是最大限度地降低谷歌应用程序引擎的带宽利用率。具体来说,最初我只希望检索HTML网页本身,而不检索该网页上的图像/视频/其他附件。。。这是可能的,无论是在谷歌应用程序引擎上,还

我想使用java.net.url来抓取一些网站并检索一些数据

我对以下问题感到困惑--

(1) 假设我将爬虫配置为访问视频共享网页,例如YouTube。现在,爬虫被设置为访问特定的YouTube视频页面——这是否意味着当爬虫实际访问该页面时,它将默认下载该页面上的所有元素,包括FLV视频?或者我可以控制检索哪些文件。其目的是最大限度地降低谷歌应用程序引擎的带宽利用率。具体来说,最初我只希望检索HTML网页本身,而不检索该网页上的图像/视频/其他附件。。。这是可能的,无论是在谷歌应用程序引擎上,还是作为常规java web应用程序的一部分

(2) 了解访问单个特定站点所使用的确切带宽的快捷方法是什么?这样我就可以跟踪带宽利用率了

请记住以上两个问题,您建议使用java.net.url还是低级别API?或者你认为我不应该坚持使用AppEngine(并用于AWS)?

(1)你的爬虫程序将只加载web服务器响应特定URL的内容,通常是纯HTML。如果是YouTube,只需在页面上用浏览器右键单击,然后选择“查看源”。如果您自动加载页面,您将下载这些内容。没有视频,只有文字


(2) 当你阅读网页内容时,只需计算你收到的字节数。这就是你的带宽。

java.net.url不是爬虫程序。