用英文以外的字母获取站点源代码

本文关键字:获取 站点 源代码 | 更新日期: 2023-09-27 18:02:25

我试图得到一个网站的源代码在c#使用

WebClient client = new WebClient();
string content = client.DownloadString(url);

它得到它很好。但是,源代码包含希伯来字符,在内容变量中显示为Gibbrish。我要怎么做才能让它认出来?

用英文以外的字母获取站点源代码

WebClient client = new WebClient();
client.Encoding = System.Text.UTF8Encoding.UTF8; // added
string content = client.DownloadString(url);

你必须指定编码,你可能在默认情况下请求ASCII和内容可以在UTF8。这是一个编码设置为UTF8的示例。如果您不确定它是什么,首先手动检查源代码,然后相应地指定编码。

问题是你的WebClient的编码。MSDN说:

…该方法使用encoding属性中指定的编码将资源转换为字符串。

解决方案:设置一个特定的编码,如
client.Encoding = Encoding.UTF8;

再试一次

string content = client.DownloadString(url);

UTF8也可以编码希伯来字符。