Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/316.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 我能';t用中文关键词刮取谷歌搜索结果_Java_Web Scraping_Jsoup_Urlencode_Chinese Locale - Fatal编程技术网

Java 我能';t用中文关键词刮取谷歌搜索结果

Java 我能';t用中文关键词刮取谷歌搜索结果,java,web-scraping,jsoup,urlencode,chinese-locale,Java,Web Scraping,Jsoup,Urlencode,Chinese Locale,我无法在此执行“中文关键字”搜索。(英文单词没问题) 字符串搜索=”大學"; 英文关键词在这里很好(可以做搜索) 我尝试对字符集使用UTF-8或big5 但它们都不起作用 这是我的作品 public static void main(String[] args) throws UnsupportedEncodingException, IOException { String[] line = new String[100]; final int[] scor

我无法在此执行“中文关键字”搜索。(英文单词没问题)

字符串搜索=”大學";

英文关键词在这里很好(可以做搜索)

我尝试对
字符集
使用
UTF-8
big5

但它们都不起作用

这是我的作品

 public static void main(String[] args) throws UnsupportedEncodingException, IOException {

          String[] line = new String[100];
      final int[] score = {    0};


        String google = "http://www.google.com/search?q=";

        String search = "大學";

        String charset = "UTF-8";//UTF-8 is neither working 

        String news="&tbm=nws";

  String string = google + URLEncoder.encode(search , charset) + news+"&tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2016%2Ccd_max%3A12%2F31%2F2016";
     String userAgent ="Chrome/57.0.2987.133"; 
     int numberOfResultpages = 10; // grabs first two pages of search results
    int idx = 0;
for (int i = 0; i < numberOfResultpages; i++) {

       Document document = Jsoup.connect(string).userAgent(userAgent) .data("start",""+i).get();
    Elements links = document.select( ".r>a");

        for (Element link : links) {

            String title = link.text();
            String url = link.absUrl("href"); // Google returns URLs in format "http://www.google.com/url?q=<url>&sa=U&ei=<someKey>".
            url = URLDecoder.decode(url.substring(url.indexOf('=') + 1, url.indexOf('&')), "UTF-8");

            if (!url.startsWith("http")) {
                continue; // Ads/news/etc.
            }
            System.out.println("Title: " + title);
            System.out.println("URL: " + url);

            line[idx++]=title;
       // }

}
     }
publicstaticvoidmain(String[]args)抛出UnsupportedEncodingException,IOException{
字符串[]行=新字符串[100];
最终int[]得分={0};
字符串google=”http://www.google.com/search?q=";
字符串搜索=”大學";
String charset=“UTF-8”;//UTF-8既不工作也不工作
String news=“&tbm=nws”;
String String=google+URLEncoder.encode(搜索,字符集)+news+“&tbs=cdr%3A1%2Ccd_最小值%3A1%2F1%2F2016%2Ccd_最大值%3A12%2F31%2F2016”;
字符串userAgent=“Chrome/57.0.2987.133”;
int numberofresultpage=10;//获取搜索结果的前两页
int-idx=0;
对于(int i=0;ia”);
用于(元素链接:链接){
字符串标题=link.text();
String url=link.absUrl(“href”);//谷歌返回格式为的url”http://www.google.com/url?q=&sa=U&ei=".
url=urldecker.decode(url.substring(url.indexOf('='))+1,url.indexOf('&'),“UTF-8”);
如果(!url.startsWith(“http”)){
继续;//广告/新闻/等。
}
System.out.println(“标题:”+标题);
System.out.println(“URL:+URL”);
行[idx++]=标题;
// }
}
}

尝试使用UTF-16一次。@Santosh Hegde不工作。
搜索?q=%FE%FF%FF%FD%FF%FD%FD%FDj%FE%FF%FF%FD%FF%FD%FD%FD
搜索项目变为十六进制term@SantoshHegde UTF-16也可以搜索英语关键字collapesd