Java 我能';t用中文关键词刮取谷歌搜索结果
我无法在此执行“中文关键字”搜索。(英文单词没问题)Java 我能';t用中文关键词刮取谷歌搜索结果,java,web-scraping,jsoup,urlencode,chinese-locale,Java,Web Scraping,Jsoup,Urlencode,Chinese Locale,我无法在此执行“中文关键字”搜索。(英文单词没问题) 字符串搜索=”大學"; 英文关键词在这里很好(可以做搜索) 我尝试对字符集使用UTF-8或big5 但它们都不起作用 这是我的作品 public static void main(String[] args) throws UnsupportedEncodingException, IOException { String[] line = new String[100]; final int[] scor
字符串搜索=”大學";代码>
英文关键词在这里很好(可以做搜索)
我尝试对字符集使用UTF-8
或big5
但它们都不起作用
这是我的作品
public static void main(String[] args) throws UnsupportedEncodingException, IOException {
String[] line = new String[100];
final int[] score = { 0};
String google = "http://www.google.com/search?q=";
String search = "大學";
String charset = "UTF-8";//UTF-8 is neither working
String news="&tbm=nws";
String string = google + URLEncoder.encode(search , charset) + news+"&tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2016%2Ccd_max%3A12%2F31%2F2016";
String userAgent ="Chrome/57.0.2987.133";
int numberOfResultpages = 10; // grabs first two pages of search results
int idx = 0;
for (int i = 0; i < numberOfResultpages; i++) {
Document document = Jsoup.connect(string).userAgent(userAgent) .data("start",""+i).get();
Elements links = document.select( ".r>a");
for (Element link : links) {
String title = link.text();
String url = link.absUrl("href"); // Google returns URLs in format "http://www.google.com/url?q=<url>&sa=U&ei=<someKey>".
url = URLDecoder.decode(url.substring(url.indexOf('=') + 1, url.indexOf('&')), "UTF-8");
if (!url.startsWith("http")) {
continue; // Ads/news/etc.
}
System.out.println("Title: " + title);
System.out.println("URL: " + url);
line[idx++]=title;
// }
}
}
publicstaticvoidmain(String[]args)抛出UnsupportedEncodingException,IOException{
字符串[]行=新字符串[100];
最终int[]得分={0};
字符串google=”http://www.google.com/search?q=";
字符串搜索=”大學";
String charset=“UTF-8”;//UTF-8既不工作也不工作
String news=“&tbm=nws”;
String String=google+URLEncoder.encode(搜索,字符集)+news+“&tbs=cdr%3A1%2Ccd_最小值%3A1%2F1%2F2016%2Ccd_最大值%3A12%2F31%2F2016”;
字符串userAgent=“Chrome/57.0.2987.133”;
int numberofresultpage=10;//获取搜索结果的前两页
int-idx=0;
对于(int i=0;ia”);
用于(元素链接:链接){
字符串标题=link.text();
String url=link.absUrl(“href”);//谷歌返回格式为的url”http://www.google.com/url?q=&sa=U&ei=".
url=urldecker.decode(url.substring(url.indexOf('='))+1,url.indexOf('&'),“UTF-8”);
如果(!url.startsWith(“http”)){
继续;//广告/新闻/等。
}
System.out.println(“标题:”+标题);
System.out.println(“URL:+URL”);
行[idx++]=标题;
// }
}
}
尝试使用UTF-16一次。@Santosh Hegde不工作。搜索?q=%FE%FF%FF%FD%FF%FD%FD%FDj%FE%FF%FF%FD%FF%FD%FD%FD
搜索项目变为十六进制term@SantoshHegde UTF-16也可以搜索英语关键字collapesd