关于在Google App Engine for java中使用java.net.url的几个问题_Java_Google App Engine

关于在Google App Engine for java中使用java.net.url的几个问题

java google-app-engine

关于在Google App Engine for java中使用java.net.url的几个问题,java,google-app-engine,Java,Google App Engine,我想使用java.net.url来抓取一些网站并检索一些数据我对以下问题感到困惑-- （1）假设我将爬虫配置为访问视频共享网页，例如YouTube。现在，爬虫被设置为访问特定的YouTube视频页面——这是否意味着当爬虫实际访问该页面时，它将默认下载该页面上的所有元素，包括FLV视频？或者我可以控制检索哪些文件。其目的是最大限度地降低谷歌应用程序引擎的带宽利用率。具体来说，最初我只希望检索HTML网页本身，而不检索该网页上的图像/视频/其他附件。。。这是可能的，无论是在谷歌应用程序引擎上，还

我想使用java.net.url来抓取一些网站并检索一些数据

我对以下问题感到困惑--

（1）假设我将爬虫配置为访问视频共享网页，例如YouTube。现在，爬虫被设置为访问特定的YouTube视频页面——这是否意味着当爬虫实际访问该页面时，它将默认下载该页面上的所有元素，包括FLV视频？或者我可以控制检索哪些文件。其目的是最大限度地降低谷歌应用程序引擎的带宽利用率。具体来说，最初我只希望检索HTML网页本身，而不检索该网页上的图像/视频/其他附件。。。这是可能的，无论是在谷歌应用程序引擎上，还是作为常规java web应用程序的一部分

（2）了解访问单个特定站点所使用的确切带宽的快捷方法是什么？这样我就可以跟踪带宽利用率了

请记住以上两个问题，您建议使用java.net.url还是低级别API？或者你认为我不应该坚持使用AppEngine（并用于AWS）？

（1）你的爬虫程序将只加载web服务器响应特定URL的内容，通常是纯HTML。如果是YouTube，只需在页面上用浏览器右键单击，然后选择“查看源”。如果您自动加载页面，您将下载这些内容。没有视频，只有文字

（2）当你阅读网页内容时，只需计算你收到的字节数。这就是你的带宽。

java.net.url不是爬虫程序。