HttpClient 返回特殊字符,但没有可读性

本文关键字:可读性 返回 特殊字符 HttpClient | 更新日期: 2023-09-27 17:56:59

我正在尝试使用 async 和 await 以及 HttpClient 下载网页,但只得到一个充满特殊字符的字符串......代码就像..

static async void DownloadPageAsync(string url)
{
    HttpClient client = new HttpClient();
    client.DefaultRequestHeaders.TryAddWithoutValidation("Accept", "text/html,application/xhtml+xml,application/xml");
    client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");
    client.DefaultRequestHeaders.TryAddWithoutValidation("User-Agent", "Mozilla/5.0 (Windows NT 6.2; WOW64; rv:19.0) Gecko/20100101 Firefox/19.0");
    client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Charset", "ISO-8859-1");
    HttpResponseMessage response = await client.GetAsync(url);
    response.EnsureSuccessStatusCode();
    var responseStream = await response.Content.ReadAsStreamAsync();
    var streamReader = new StreamReader(responseStream);
    var str = streamReader.ReadToEnd();
}

和网址是

url = @"http://www.nseindia.com/live_market/dynaContent/live_watch/live_index_watch.htm";

当我这样做时

client.DefaultRequestHeaders.Add("User-Agent",
                                 "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; 
                                  WOW64; Trident/6.0)");

代替这四个 DefaultRequestHeaders,我得到了一个 403 错误,但这是 nse 站点,对所有人都是免费的。请帮助朋友得到正确的回应。问候

斯里瓦斯塔瓦

HttpClient 返回特殊字符,但没有可读性

client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");

有了这个,你告诉服务器你允许它压缩响应 gzip/shlate。因此,响应实际上是压缩的,这解释了为什么您会得到这种响应文本。

如果需要纯文本,则不应添加标头,因此服务器不会压缩响应。如果删除上述行,则会得到正常的 HTML 响应文本。

或者,您当然可以保留该标头,并在收到响应后使用 GZipStream 解压缩响应。这将像这样工作:

using (var responseStream = await response.Content.ReadAsStreamAsync())
using (var deflateStream = new GZipStream(responseStream, CompressionMode.Decompress))
using (var streamReader = new StreamReader(deflateStream))
{
    var str = streamReader.ReadToEnd();
    Console.WriteLine(str);
}

理想情况下,您应该检查 response.Content.Headers.GetValues("Content-Encoding") 的值以确保编码gzip 。由于您也接受deflate作为可能的编码,因此您可以使用 DeflateStream 对其进行解码;或者不要解码任何内容,以防缺少内容编码标头。