C# HttpClient返回特殊字符但不可读
我正在尝试使用async和await以及HttpClient下载一个网页,但只得到一个充满特殊字符的字符串。。。代码就像C# HttpClient返回特殊字符但不可读,c#,wpf,async-await,httpclient,C#,Wpf,Async Await,Httpclient,我正在尝试使用async和await以及HttpClient下载一个网页,但只得到一个充满特殊字符的字符串。。。代码就像 static async void DownloadPageAsync(string url) { HttpClient client = new HttpClient(); client.DefaultRequestHeaders.TryAddWithoutValidation("Accept", "text/html,application/xhtml+x
static async void DownloadPageAsync(string url)
{
HttpClient client = new HttpClient();
client.DefaultRequestHeaders.TryAddWithoutValidation("Accept", "text/html,application/xhtml+xml,application/xml");
client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");
client.DefaultRequestHeaders.TryAddWithoutValidation("User-Agent", "Mozilla/5.0 (Windows NT 6.2; WOW64; rv:19.0) Gecko/20100101 Firefox/19.0");
client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Charset", "ISO-8859-1");
HttpResponseMessage response = await client.GetAsync(url);
response.EnsureSuccessStatusCode();
var responseStream = await response.Content.ReadAsStreamAsync();
var streamReader = new StreamReader(responseStream);
var str = streamReader.ReadToEnd();
}
url是
url = @"http://www.nseindia.com/live_market/dynaContent/live_watch/live_index_watch.htm";
当我这么做的时候
client.DefaultRequestHeaders.Add("User-Agent",
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2;
WOW64; Trident/6.0)");
代替这四个DefaultRequestHeader,我得到了一个403错误,但这是nse站点,对所有人都是免费的。请帮助我的朋友得到正确的回答。。
问候
斯利瓦斯塔瓦
client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");
这样,您就可以告诉服务器您允许它压缩响应/。因此,响应实际上是压缩的,这解释了为什么会得到这样的响应文本
如果需要纯文本,则不应添加标题,这样服务器就不会压缩响应。若删除上面的行,将得到一个正常的HTML响应文本
或者,您当然可以保留该头并在收到响应后使用解压缩响应。这将是这样的:
using (var responseStream = await response.Content.ReadAsStreamAsync())
using (var deflateStream = new GZipStream(responseStream, CompressionMode.Decompress))
using (var streamReader = new StreamReader(deflateStream))
{
var str = streamReader.ReadToEnd();
Console.WriteLine(str);
}
理想情况下,您应该检查
response.Content.Headers.GetValues(“Content Encoding”)
的值,以确保编码是gzip
。由于您也接受了deflate
作为一种可能的编码,因此您可以使用来解码该编码;或者不要解码任何内容,以防内容编码头丢失。您是否尝试过等待响应。Content.ReadAsStringAsync()代码>而不是使用流?是的,也尝试过,但得到的是相同的东西,菱形内的问号、\b\0\0\0等以及大量无法读取的字符。。