C# 刮网
我正在浏览一个用丹麦语写的网站。。我无法像må那样刮去某些字符。。 有办法解决这个问题吗?C# 刮网,c#,screen-scraping,C#,Screen Scraping,我正在浏览一个用丹麦语写的网站。。我无法像må那样刮去某些字符。。 有办法解决这个问题吗? 感谢您尝试UTF-8或Windows-1252字符集。如果您使用的是Web浏览器控件,则可以将页面编码设置为可以显示该字符的任何语言。然后只提取页面源代码 我刚刚使用了System.Web.HttpContext.Current.Server.HtmlDecode() 它可以工作。我使用iso-8859-1进行解码。 HTH最好使用与HttpWebResponse对象相同的编码, 下面是使用所有语言和字符
感谢您尝试UTF-8或Windows-1252字符集。如果您使用的是Web浏览器控件,则可以将页面编码设置为可以显示该字符的任何语言。然后只提取页面源代码 我刚刚使用了System.Web.HttpContext.Current.Server.HtmlDecode()
它可以工作。我使用iso-8859-1进行解码。
HTH最好使用与HttpWebResponse对象相同的编码, 下面是使用所有语言和字符的代码
response = (HttpWebResponse)request.GetResponse();
string Charset = response.CharacterSet;
Encoding encoding = Encoding.GetEncoding(Charset);
if (response.StatusCode == HttpStatusCode.OK)
{
response_stream = new StreamReader(response.GetResponseStream(), encoding);
html = response_stream.ReadToEnd();
}
你能告诉我们你用来刮取内容的相关代码吗?你用来刮取内容的库/代码是什么?我没有使用库文件。。我只是在用regexOh我的。。。看看你为什么不应该使用正则表达式:@山姆,我不知道你的网站的结构,但是如果你只清理一个网站,而且它的建设是半途而废的,我会考虑你对它进行分组,并用一个查找字符串函数或类似的方法解析相关信息。但当然,我不知道你在做什么,所以在你填写之前,恐怕我们的帮助有限:-)谢谢..我试过..这里的网站有“windows-1252”编码