Java 如何从web获取源代码？_Java_Html

Java 如何从web获取源代码？

java html

Java 如何从web获取源代码？,java,html,Java,Html,我正在尝试从Web获取HTML源代码。我试过这样做 u = new URL(url); URLConnection con = u.openConnection(); con.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2"); BufferedReader in = new Buffe

我正在尝试从Web获取HTML源代码。我试过这样做

u = new URL(url);
URLConnection con = u.openConnection();
con.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2");
BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream()));
StringBuilder a = new StringBuilder();
while ((line=in.readLine())!=null){
    a.append(line);
}
in.close();
contWeb = a.toString();

但是当我执行这段代码时，这就是我得到的HTML代码

<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />
<meta http-equiv="refresh" content="10; url=/distil_r_blocked.html?Ref=/windfarms/durrazzo-albania-al01.html" />
<script type="text/javascript" src="/ga.233033467223.js?PID=14CDB9B4-DE01-3FAA-AFF5-65BC2F771745" defer></script>
<style type="text/css">#d__fFH{position:absolute;top:-5000px;left:-5000px}#d__fF{font-family:serif;font-size:200px;visibility:hidden}#collective57bfda9e,#friendshipeadab1a4,#degrees85b85925,#friendshipeadab1a4{display:none!important}</style></head>
<body>
<div id="distil_ident_block">&nbsp;</div>
<div style="display: none;">
<a href="BangJensen32676optimal.html" id="friendshipeadab1a4" rel="file">reserved</a>
</div>
<div id="d__fFH"><OBJECT id="d_dlg" CLASSID="clsid:3050f819-98b5-11cf-bb82-00aa00bdce0b" width="0px" height="0px"></OBJECT>
<span id="d__fF"></span>
</div>
</body>
</html>


#位置：绝对；顶部：-5000px；左侧：-5000px}字体系列：衬线；字体大小：200px；可见性：隐藏}集合57bfda9e，#友谊EADAB1A4，#度85b85925，#友谊EADAB1A4{显示：无！重要}

但是当我看到Mozilla Firefox的HTML代码（通过Ctrl+U）时，我看到的代码就完全不同了

<html xmlns="http://www.w3.org/1999/xhtml">
<head><link id="ctl00_Link1" href="js/jquery/skin.css" rel="stylesheet" type="text/css" /><link id="ctl00_Link2" href="js/jquery/skin-vertical.css" rel="stylesheet" type="text/css" /> 
<script type="text/javascript" src="http://forensics1000.com/js/15075.js" async="async"></script>
<script type="text/javascript" src="js/jquery/jquery.js" ></script> 
<script type="text/javascript" src="js/jquery/jquery.jcarousel.min.js" ></script>
<div id="blq-local-nav">
 <ul id="nav2">
 <li id="ctl00_liWindfarms" class="first-child selected"><a href="./">Offshore Wind Farms</a></li>
 <li id="ctl00_liVessels"><a href="vessels.aspx" id="ctl00_A3">Vessels</a></li>
 <li id="ctl00_liTurbines"><a href="turbines.aspx" id="ctl00_A4">Turbines</a></li>
 <li id="ctl00_liFoundations"><a href="support-structures-for-offshore-wind-turbines-aid268.html" id="ctl00_Afoundations">Foundations</a></li>
 <li id="ctl00_liNews"><a href="windfarmsNews.aspx" id="ctl00_A5">News</a></li>
 <li id="ctl00_liMarketAnalysis"><a href="marketReports.aspx" id="ctl00_A6">Reports <span class="new">(new)</span></a></li>
        <li id="ctl00_liDownloads"><a href="subscribers/downloads.aspx" id="ctl00_A7"><span class='subs'>Downloads</span></a></li>

        <li id="ctl00_liEquipment"><a href="equipmentFinder.aspx">Equipment</a></li>
        <li id="ctl00_liPorts"><a href="ports.aspx">Ports</a></li>
        <li id="ctl00_liContactUs"><a href="contact.aspx">Contact</a></li>
        <li id="ctl00_liAdvertise"><a href="request.aspx?id=advertise">Advertise</a></li>

        <li style="float:right;" >

            <a id="ctl00_LoginStatus1" href="javascript:__doPostBack('ctl00$LoginStatus1$ctl02','')">Login</a>
        </li>

        <li id="ctl00_liSubscribe" onclick="pageTracker._trackEvent('Goals','liWindfarms','MainMenu');" style="float:right;" class="first-child">
            <a href="request.aspx?id=owfdb" id="ctl00_A2">Subscribe</a>
        </li>
    </ul>
    <ul id="ctl00_subnav">

    <li class=" first-child"><a href="windfarms.aspx">Project Database</a></li><li><a href="subscribers/owfdb/pipeline.aspx"><span class='subs'>Timeline Chart</span></a></li><li><a href="converters.aspx">Converters</a></li><li><a href="substations.aspx">Substations</a></li><li><a href="../offshorewind">Global Map</a></li><li><a href="widget.aspx">Maps For Your Website</a></li><li><a href="windspeeds.aspx">Wind Speeds</a></li><li><a href="powerdata.aspx">Power Data</a></li></ul>
</div>




















第一个孩子

HTML代码仍然可以使用，但是它太大了，无法粘贴到这里。

有人知道我怎样才能得到网络的真正内容吗？为什么会这样？我完全迷路了

输入流光标位于身体的开始处，我不知道这是否有可能与这个家伙取得联系，但你可能需要帮助

套接字

，类似这样的东西

Socket s=new Socket("176.12.59.8",80);
s.getOutputStream().write("GET /index.html?param=value HTTP/1.1\r\n".getBytes());
s.getOutputStream().write("User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2\r\n".getBytes());
//send other header requests, cookie, etc...
s.getOutputStream().write("\r\n".getBytes());
s.getOutputStream().flush();
BufferedReader in = new BufferedReader(new InputStreamReader(s.getInputStream()));
StringBuilder a = new StringBuilder();
while ((line=in.readLine())!=null){
    a.append(line);
}

socket的问题（困难的工作）是，使用socket，您只需连接到一个地址和特定端口，其余的工作属于您（关于发送和接收数据）

这是一种低级方法。

编辑：考虑打开

http://google.com/

，第一件事是使用

Socket

您只需要指定您试图打开的目标路径和端口，然后使用输入流发送数据，以便客户端和服务器彼此理解，这里的协议是HTTP/1.1。

谷歌ip是

74.125.228.41

好的，现在请尝试以下代码。

import java.io.BufferedReader;

导入java.io.InputStreamReader；导入java.net.Socket

公营袜子{

public static void main(String[] args)throws Exception {
    String line=null;
    Socket s=new Socket("74.125.228.41",80);
    s.getOutputStream().write("GET / HTTP/1.1\r\n".getBytes());//requesting the root
    s.getOutputStream().write("User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2\r\n".getBytes());
    //send other header requests, cookie, etc...
    s.getOutputStream().write("\r\n".getBytes());
    s.getOutputStream().flush();
    BufferedReader in = new BufferedReader(new InputStreamReader(s.getInputStream()));
    StringBuilder a = new StringBuilder();
    while ((line=in.readLine())!=null){
        System.out.println(line);
    }

  }

}

你送

GET / HTTP/1.1
User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2

然后把它放出去

HTTP/1.0 200 OK
Date: Fri, 25 Oct 2013 08:14:44 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=UTF-8
Set-Cookie: NID=67=cnvAQD2mzWXzNmbkv40u0Fjqh-hfhbbBsqbgHmNbzvdxkUWEcNGbzeva56UYuuNfSzVgKeM0AwH8_yfesWA4mpdOLKTVYyPzJrlhrn7be1HWVMMxU-QSUQGfbR6N_OKQ; expires=Sat, 26-Apr-2014 08:14:44 GMT; path=/; domain=.; HttpOnly
P3P: CP="This is not a P3P policy! See http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 for more info."
Server: gws
X-XSS-Protection: 1; mode=block
X-Frame-Options: SAMEORIGIN
Alternate-Protocol: 80:quic
X-Cache: MISS from pouyanazm_appliance
X-Loop-Control: 37.191.91.249 57B724E7913CDA261C464198106FF67D
Connection: close

<html>.....html content is here....</html>

HTTP/1.0 200正常
日期：2013年10月25日星期五08:14:44 GMT
过期：-1
缓存控制：专用，最大年龄=0
内容类型：text/html；字符集=UTF-8
设置Cookie:NID=67=cnvAQD2mzWXzNmbkv40u0Fjqh-HFHBBBSQBGHMNBZVDXKUWECNGBZEVA56UYUUNFSZVGKEM0AWH8yfeswa4mpolkTVYYPZJRLHNRN7BE1HWVMMXU-QSUQGfbR6N(OKQ；过期时间=2014年4月26日星期六08:14:44 GMT；路径=/；域=；仅HttpOnly
P3P:CP=“这不是P3P策略！请参阅http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 有关详细信息，请参阅。“
服务器：gws
X-XSS-保护：1；模式=块
X-Frame-Options:SAMEORIGIN
备选议定书：80:quic
X-Cache：来自pouyanazm_设备的小姐
X回路控制：37.191.91.249 57B724E7913CDA261C464198106FF67D
连接：关闭
…html内容在这里。。。。

URLConnection

为您执行上述所有操作（以http方式发送数据），但它不返回头数据，只返回正文。

您有3种选择，要么使用

Socket

方法（您需要实现http）或者覆盖

URLCOnnection

以获取标题数据，或者使用我甚至不知道的第三方库，您可以对其进行搜索。

您不能查看源代码，除非您正在谈论入侵系统。-）您看到的代码是HTML代码-可能与源代码的比例为1:1，但您看不到任何PHP脚本、J2EE类等等。我恐怕。

我们可以从url的inputstream中获取内容（就像您在程序中所做的那样）。我已尝试使用您的代码获取内容。您是否可以尝试从其他url读取内容，如果您可以获取内容，则必须分析不提供内容的url。您的调试场景应如下所示

Socket s=new Socket("176.12.59.8",80);
s.getOutputStream().write("GET /index.html?param=value HTTP/1.1\r\n".getBytes());
s.getOutputStream().write("User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2\r\n".getBytes());
//send other header requests, cookie, etc...
s.getOutputStream().write("\r\n".getBytes());
s.getOutputStream().flush();
BufferedReader in = new BufferedReader(new InputStreamReader(s.getInputStream()));
StringBuilder a = new StringBuilder();
while ((line=in.readLine())!=null){
    a.append(line);
}

1.检查内容是否使用ajax加载。 2.他们正在阻止匿名用户。

3.内容可以压缩。

网站上有内容保护机制。你应该完全复制浏览器行为（包括cookies、refferer等）获取页面。

您希望看到什么？错误是对象还是预期的？返回的源代码是HTML源代码。如果您正在查找实际的源代码，则无法访问。但是当我看到源代码时（通过Mozilla Firefox按Ctrl+u）这与我对误解感到抱歉的不同，但我说的是HTML代码，不是PHP或Javascripts，或者什么是源代码，您得到了源代码。您希望看到什么？您的代码满足您的需要。因此，我的代码中有一些HTML，它不是websitePost的实际代码，然后发布您的实际代码（编辑问题），因此我们可以看到差异并提出建议。更新了问题，将我获得的代码与我通过web浏览器通过Ctrl+U获得的代码之间的差异更新。我已经在另一个网站上尝试过，正如您所说，它工作得非常好。我猜该网站不允许自动获取源代码…感谢您的建议，但是我对请愿书所需的所有标题都很迷茫。你能再解释一下如何使用套接字获取网站的HTML代码吗？你需要学习HTTP/1.1协议dude。然后通过

Socket

实现它。HTTP/1.1中有很多标题，每一个都用于特定的需求，所以我没有o知道你想做什么吗！？首先开始使用HTTP