用java获取网站的源代码_Java_Url

用java获取网站的源代码

java url

用java获取网站的源代码,java,url,Java,Url,我想使用java获取网站的源代码（安全），然后解析该网站中的链接。我已经找到了如何连接到该url的方法，但是我如何才能轻松地获得源代码，最好是DOM文档oso，这样我就可以轻松地获得所需的信息或者有没有更好的方法连接到https站点，获取源代码（我需要这样做才能获得一个数据表…非常简单），然后这些链接就是我要下载的文件我希望它是FTP，但这些是存储在我的tivo上的文件（我想通过编程将它们下载到我的计算机上（Try or）。虽然前者表面上是用于编写集成测试，但它有一个方便的API，用于以编程

我想使用java获取网站的源代码（安全），然后解析该网站中的链接。我已经找到了如何连接到该url的方法，但是我如何才能轻松地获得源代码，最好是DOM文档oso，这样我就可以轻松地获得所需的信息

或者有没有更好的方法连接到https站点，获取源代码（我需要这样做才能获得一个数据表…非常简单），然后这些链接就是我要下载的文件

我希望它是FTP，但这些是存储在我的tivo上的文件（我想通过编程将它们下载到我的计算机上（

Try or）。虽然前者表面上是用于编写集成测试，但它有一个方便的API，用于以编程方式迭代网页链接，类似于以下使用：

您可以使用来获取站点的html，并对其进行分析。

您可以获取低级别，只需使用套接字进行请求

// Arg[0] = Hostname
// Arg[1] = File like index.html
public static void main(String[] args) throws Exception {
    SSLSocketFactory factory = (SSLSocketFactory) SSLSocketFactory.getDefault();

    SSLSocket sslsock = (SSLSocket) factory.createSocket(args[0], 443);

    SSLSession session = sslsock.getSession();
    X509Certificate cert;
    try {
        cert = (X509Certificate) session.getPeerCertificates()[0];
    } catch (SSLPeerUnverifiedException e) {
        System.err.println(session.getPeerHost() + " did not present a valid cert.");
        return;
    }

    // Now use the secure socket just like a regular socket to read pages.
    PrintWriter out = new PrintWriter(sslsock.getOutputStream());
    out.write("GET " + args[1] + " HTTP/1.0\r\n\r\n");
    out.flush();

    BufferedReader in = new BufferedReader(new InputStreamReader(sslsock.getInputStream()));
    String line;
    String regExp = ".*<a href=\"(.*)\">.*";
    Pattern p = Pattern.compile( regExp, Pattern.CASE_INSENSITIVE );

    while ((line = in.readLine()) != null) {
        // Using Oscar's RegEx.
        Matcher m = p.matcher( line );  
        if( m.matches() ) {
            System.out.println( m.group(1) );
        }
    }

    sslsock.close();
}

//Arg[0]=主机名
//Arg[1]=类似index.html的文件
公共静态void main（字符串[]args）引发异常{
SSLSocketFactory=（SSLSocketFactory）SSLSocketFactory.getDefault（）；
SSLSocket sslsock=（SSLSocket）factory.createSocket（args[0]，443）；
SSLSession session=sslsock.getSession（）；
X509证书；
试一试{
证书=（X509Certificate）会话。getPeerCertificates（）[0]；
}捕获（SSLPEEUNVERIFIEDEXE）{
System.err.println（session.getPeerHost（）+“未提供有效的证书”）；
返回；
}
//现在使用安全套接字就像使用普通套接字一样读取页面。
PrintWriter out=新的PrintWriter（sslsock.getOutputStream（））；
out.write（“GET”+args[1]+“HTTP/1.0\r\n\r\n”）；
out.flush（）；
BufferedReader in=新的BufferedReader（新的InputStreamReader（sslsock.getInputStream（））；
弦线；
字符串regExp=“.*”；
Pattern p=Pattern.compile（regExp，Pattern.CASE\u不区分大小写）；
而（（line=in.readLine（））！=null）{
//使用奥斯卡的正则表达式。
匹配器m=p.匹配器（线）；
如果（m.matches（））{
系统输出println（m.group（1））；
}
}
sslsock.close（）；
}

也许你可以从Pete's或sktrdie的选项中获得更好的结果。如果你想知道如何“通过had”完成，这里有一个额外的方法

我不太擅长正则表达式，所以在本例中，它返回一行中的最后一个链接。这是一个开始

import java.io.*;
import java.net.*;
import java.util.regex.*;

public class Links { 
    public static void main( String [] args ) throws IOException  { 

        URL url = new URL( args[0] );
        InputStream is = url.openConnection().getInputStream();

        BufferedReader reader = new BufferedReader( new InputStreamReader( is )  );

        String line = null;
        String regExp = ".*<a href=\"(.*)\">.*";
        Pattern p = Pattern.compile( regExp, Pattern.CASE_INSENSITIVE );

        while( ( line = reader.readLine() ) != null )  {
            Matcher m = p.matcher( line );  
            if( m.matches() ) {
                System.out.println( m.group(1) );
            }
        }
        reader.close();
    }
}

import java.io.*；
导入java.net。*；
导入java.util.regex.*；
公共类链接{
公共静态void main（字符串[]args）引发IOException{
URL=新URL（参数[0]）；
InputStream=url.openConnection（）.getInputStream（）；
BufferedReader reader=新的BufferedReader（新的InputStreamReader（is））；
字符串行=null；
字符串regExp=“.*”；
Pattern p=Pattern.compile（regExp，Pattern.CASE\u不区分大小写）；
而（（line=reader.readLine（））！=null）{
匹配器m=p.匹配器（线）；
如果（m.matches（））{
系统输出println（m.group（1））；
}
}
reader.close（）；
}
}

编辑

哎呀，我完全错过了“安全”部分。无论如何，我还是忍不住，我不得不写下这个示例：p

非常相似的问题：

HTML源：

脚本源：

解析：

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;


public class ParseHTML {

    public static void main(String args[]) throws IOException{
        Document doc = Jsoup.connect("https://www.wikipedia.org/").get();
        String text = doc.body().text();

        System.out.print(text);
    }
}

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;


public class ParseHTML {

    public static void main(String args[]) throws IOException{
        Document doc = Jsoup.connect("https://www.wikipedia.org/").get();
        String text = doc.body().text();

        System.out.print(text);
    }
}