Android jsoup无法获取完整的HTML文档

Android jsoup无法获取完整的HTML文档,android,jsoup,Android,Jsoup,我使用Jsoup获取外部html文档,但Jsoup仅获取html documnet的一半。这是我的 我可以知道我需要添加什么标题吗 谢谢Alex 受保护的字符串doInBackground(字符串…URL){ 试一试{ 字符串数据=”; 单据单据=空; doc=Jsoup.connect(URL[0]) .header(“接受编码”、“gzip、deflate”) .header(“内容类型”、“应用程序/x-javascript;字符集=utf-8”) .userAgent(“Mozilla

我使用Jsoup获取外部html文档,但Jsoup仅获取html documnet的一半。这是我的

我可以知道我需要添加什么标题吗

谢谢Alex

受保护的字符串doInBackground(字符串…URL){ 试一试{ 字符串数据=”; 单据单据=空; doc=Jsoup.connect(URL[0]) .header(“接受编码”、“gzip、deflate”) .header(“内容类型”、“应用程序/x-javascript;字符集=utf-8”) .userAgent(“Mozilla/5.0(Windows NT 6.1;WOW64;rv:23.0)Gecko/20100101 Firefox/23.0”) .get(); Log.e(“RssDetailsActivity”,doc.toString()); Elements=doc.getElementsByClass(“contentclearfix”); for(元素:元素){ data+=element.outerHtml(); 数据+=“
”; } 返回数据; }捕获(例外e){ Log.e(“RssDetailsActivity”,e.getMessage()); } 返回null; }

如果您使用的是chrome,则右键单击并选择“检查元素”。将有一个称为“网络”的选项卡。寻找能够提供html内容的正确调用。单击该按钮后,您应该能够看到请求标头和响应标头。下面是请求头的一个片段

GET /content/8287 HTTP/1.1
Host: www.myanmarinternetjournal.com
Connection: keep-alive
Cache-Control: no-cache
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Pragma: no-cache
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.76 Safari/537.36
Accept-Encoding: gzip,deflate,sdch
Accept-Language: en-US,en;q=0.8
Cookie: has_js=1; __qca=P0-306326763-1379867776215; __utma=26494267.256134586.1379867776.1379867776.1379867776.1; __utmb=26494267.1.10.1379867776; __utmc=26494267; __utmz=26494267.1379867776.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=168333117.107878997.1379867784.1379867784.1379867784.1; __utmb=168333117.1.10.1379867784; __utmc=168333117; __utmz=168333117.1379867784.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _pk_id.6.0010=447ba0a1b9e46537.1379867784.1.1379867784.1379867784.; _pk_ses.6.0010=*; __unam=688c865-14146878987-1b969d4c-1
使用这个函数,在jsoup.connect()调用中填充更多的头参数。
firefox上的firebug扩展也可以做到这一点。

以下是我对问题的答案

Elements=doc.getElementsByClass(“contentclearfix”)

我添加了错误的类。我应该只写“内容”

元素=doc.getElementsByClass(“内容”)

在那之后,我得到了部门的部分。我刚刚意识到调试模式下的文档值在eclipse中被切断

GET /content/8287 HTTP/1.1
Host: www.myanmarinternetjournal.com
Connection: keep-alive
Cache-Control: no-cache
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Pragma: no-cache
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.76 Safari/537.36
Accept-Encoding: gzip,deflate,sdch
Accept-Language: en-US,en;q=0.8
Cookie: has_js=1; __qca=P0-306326763-1379867776215; __utma=26494267.256134586.1379867776.1379867776.1379867776.1; __utmb=26494267.1.10.1379867776; __utmc=26494267; __utmz=26494267.1379867776.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=168333117.107878997.1379867784.1379867784.1379867784.1; __utmb=168333117.1.10.1379867784; __utmc=168333117; __utmz=168333117.1379867784.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _pk_id.6.0010=447ba0a1b9e46537.1379867784.1.1379867784.1379867784.; _pk_ses.6.0010=*; __unam=688c865-14146878987-1b969d4c-1