用Java从Internet获取数据_Java_Html_Jnlp_Web

用Java从Internet获取数据

java html web

用Java从Internet获取数据,java,html,jnlp,web,Java,Html,Jnlp,Web,我想用java为我的大学项目做以下申请。我知道核心java。我想知道我应该为这个项目“特别”读些什么，因为时间比较少：它将有一个接口来放置您的查询。此字符串将作为对internet搜索引擎的查询，并在搜索引擎的帮助下查找数据（我们看到的第一个网页（这是我这次应用程序的数据）。我不想显示数据。我只需要HTML文件或生成的网页的源代码。它听起来像普通的逃跑界面吗？我不知道这件事但我想也是出于同样的目的。如果是这样的话。请指导我如何实现此功能。请具体说明问题1:我应该读什么？我无意在这一点

我想用java为我的大学项目做以下申请。我知道核心java。我想知道我应该为这个项目“特别”读些什么，因为时间比较少：

它将有一个接口来放置您的查询。此字符串将作为对internet搜索引擎的查询，并在搜索引擎的帮助下查找数据（我们看到的第一个网页（这是我这次应用程序的数据）。
我不想显示数据。我只需要HTML文件或生成的网页的源代码。它听起来像普通的逃跑界面吗？我不知道这件事
但我想也是出于同样的目的。如果是这样的话。请指导我如何实现此功能。
请具体说明

问题1:我应该读什么？我无意在这一点上提供任何直接帮助。我想自己实现它
问题2:连接到internet也需要一些jnlp知识
例如，在谷歌上我们搜索一些东西，它会显示网站的链接。我可以看到这个生成的网页的源代码。我只想让我的应用程序在这个页面上工作
编辑：我不想只依赖谷歌或任何特定的网络服务器。我想通过我的申请来决定。
请同时参考我的问题2

当我发现我们有网站的条件条款时，我应该尝试制作我的爬虫。那么我的申请就不会违反规则了。嗯，这对我很重要。
你可以用它做任何你想做的事。它就像是一个web浏览器，但适用于java。查看他们网站上的一些示例。
URL=newurl（“http://fooooo.com"); in=新的BufferedReader（新的InputStreamReader（url.openStream（））；字符串输入线；而（（inputLine=in.readLine（））！=null） { 系统输出打印LN（输入线）； }
应该足够让你开始了
是的，一定要检查你是否违反了网站的使用条款。搜索引擎并不真的喜欢你通过程序访问它们
包括谷歌在内的许多公司都有专门为此目的设计的API。
阅读Java教程中的“”，了解HTMLUnit、HttpClient等可用LIB的背后是什么，这里是我的建议

从这些链接（，）学习JSON的基础知识

然后看看Google Web搜索JSON API
了解如何使用HttpClient库从服务器获取数据

现在您需要做的是，为搜索发出get请求，读取JSON响应，使用来自#1的JSON库解析响应，然后您就得到了搜索结果

大多数搜索引擎（Bing等）都提供Jason/RESTAPI，因此您可以对其他搜索引擎进行同样的操作注意：JasonAPI通常在UI端从JavaScriptps使用，但由于它非常容易学习，所以我建议您这样做。您还可以探索（如果时间允许）基于XML的API
我不想显示数据。我只需要HTML文件或生成的网页的源代码

您可能也不需要HTML。谷歌使用此服务将其搜索结果作为web服务提供。其他搜索引擎也是如此。您将以XML的形式获得搜索结果，这对您来说更容易解析。此外，XML不会有任何不必要的数据，如广告。
但大多数网页都有TOC，其中明确显示了可能使用的数字。。。还有一句关于分配、限制和所有者的话…：-）那么，你建议我做什么？我应该只使用谷歌API吗？他提到“我不想显示数据，我只想要HTML文件或源代码”，那么呢？htmlunit不仅仅是关于显示数据。lol他还提到：“这个字符串将作为一个查询进入互联网搜索引擎，并在搜索引擎的帮助下查找数据（我们看到的第一个网页“出于这个原因，它可能会有所帮助”。@Maciejk这样HTMLUnit就可以在网页上运行javascript了。我也可以“通过编程”这样做吗？”我想在引擎上搜索的内容：=>将我的搜索查询放在框中，模拟按钮的javascript代码。然后获取文档。我们会违反web服务器的TOC吗？@MaciejK是您给出的内容，与：[link]（）”相同？并访问任何网站的html网页（搜索引擎除外，因为它有服务）不应该反对TOC，因为这是每个搜索引擎都会做的事情？我们可以聊天吗？我如何在不使用特定API的情况下将我想在web上搜索的查询发送到任何搜索引擎。你可以，但你将违反网站的TOS。不久他们中的一个会对你采取行动，其中最轻的是b没有ip。我真的建议你做一个服务，整合你从各种搜索引擎API获得的结果，这是做你想做的事情的正确方式。这样HTMLUnit可以在网页上运行javascript。我也可以“通过编程”来做吗无论我想在引擎上搜索什么：=>将我的搜索查询放在框中，模拟按钮的javascript代码。然后获取文档。我们会违反web服务器的TOC吗？你会违反搜索提供商的TOS。如果是谷歌，引用“你同意不访问（或尝试访问）除非在与谷歌的单独协议中明确允许您通过谷歌提供的接口以外的任何方式访问任何服务。您明确同意不通过任何自动方式（包括使用脚本或网络爬虫）访问（或尝试访问）任何服务。”另外，这里是你应该做的，再次感谢谷歌的链接。他们真的是我的起点。你的2。谷歌网页搜索json api的链接。它会是attac吗