Android jsoup无法获取完整的HTML文档_Android_Jsoup

Android jsoup无法获取完整的HTML文档

android

Android jsoup无法获取完整的HTML文档,android,jsoup,Android,Jsoup,我使用Jsoup获取外部html文档，但Jsoup仅获取html documnet的一半。这是我的我可以知道我需要添加什么标题吗谢谢Alex 受保护的字符串doInBackground（字符串…URL）{ 试一试{ 字符串数据=”；单据单据=空； doc=Jsoup.connect（URL[0]） .header（“接受编码”、“gzip、deflate”） .header（“内容类型”、“应用程序/x-javascript；字符集=utf-8”） .userAgent（“Mozilla

我使用Jsoup获取外部html文档，但Jsoup仅获取html documnet的一半。这是我的

我可以知道我需要添加什么标题吗

谢谢Alex


受保护的字符串doInBackground（字符串…URL）{
试一试{
字符串数据=”；
单据单据=空；
doc=Jsoup.connect（URL[0]）
.header（“接受编码”、“gzip、deflate”）
.header（“内容类型”、“应用程序/x-javascript；字符集=utf-8”）
.userAgent（“Mozilla/5.0（Windows NT 6.1；WOW64；rv:23.0）Gecko/20100101 Firefox/23.0”）
.get（）；
Log.e（“RssDetailsActivity”，doc.toString（））；
Elements=doc.getElementsByClass（“contentclearfix”）；
for（元素：元素）{
data+=element.outerHtml（）；
数据+=“
”；
}             
返回数据；
}捕获（例外e）{
Log.e（“RssDetailsActivity”，e.getMessage（））；
}
返回null；
}

如果您使用的是chrome，则右键单击并选择“检查元素”。将有一个称为“网络”的选项卡。寻找能够提供html内容的正确调用。单击该按钮后，您应该能够看到请求标头和响应标头。下面是请求头的一个片段

GET /content/8287 HTTP/1.1
Host: www.myanmarinternetjournal.com
Connection: keep-alive
Cache-Control: no-cache
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Pragma: no-cache
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.76 Safari/537.36
Accept-Encoding: gzip,deflate,sdch
Accept-Language: en-US,en;q=0.8
Cookie: has_js=1; __qca=P0-306326763-1379867776215; __utma=26494267.256134586.1379867776.1379867776.1379867776.1; __utmb=26494267.1.10.1379867776; __utmc=26494267; __utmz=26494267.1379867776.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=168333117.107878997.1379867784.1379867784.1379867784.1; __utmb=168333117.1.10.1379867784; __utmc=168333117; __utmz=168333117.1379867784.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _pk_id.6.0010=447ba0a1b9e46537.1379867784.1.1379867784.1379867784.; _pk_ses.6.0010=*; __unam=688c865-14146878987-1b969d4c-1

使用这个函数，在jsoup.connect（）调用中填充更多的头参数。

firefox上的firebug扩展也可以做到这一点。

以下是我对问题的答案

Elements=doc.getElementsByClass（“contentclearfix”）

我添加了错误的类。我应该只写“内容”

元素=doc.getElementsByClass（“内容”）

在那之后，我得到了部门的部分。我刚刚意识到调试模式下的文档值在eclipse中被切断

GET /content/8287 HTTP/1.1
Host: www.myanmarinternetjournal.com
Connection: keep-alive
Cache-Control: no-cache
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Pragma: no-cache
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.76 Safari/537.36
Accept-Encoding: gzip,deflate,sdch
Accept-Language: en-US,en;q=0.8
Cookie: has_js=1; __qca=P0-306326763-1379867776215; __utma=26494267.256134586.1379867776.1379867776.1379867776.1; __utmb=26494267.1.10.1379867776; __utmc=26494267; __utmz=26494267.1379867776.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=168333117.107878997.1379867784.1379867784.1379867784.1; __utmb=168333117.1.10.1379867784; __utmc=168333117; __utmz=168333117.1379867784.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _pk_id.6.0010=447ba0a1b9e46537.1379867784.1.1379867784.1379867784.; _pk_ses.6.0010=*; __unam=688c865-14146878987-1b969d4c-1