C# 刮网_C#_Screen Scraping - Fatal编程技术网

C# 刮网

C# 刮网,c#,screen-scraping,C#,Screen Scraping,我正在浏览一个用丹麦语写的网站。。我无法像må那样刮去某些字符。。有办法解决这个问题吗？感谢您尝试UTF-8或Windows-1252字符集。如果您使用的是Web浏览器控件，则可以将页面编码设置为可以显示该字符的任何语言。然后只提取页面源代码我刚刚使用了System.Web.HttpContext.Current.Server.HtmlDecode（）它可以工作。我使用iso-8859-1进行解码。 HTH最好使用与HttpWebResponse对象相同的编码，下面是使用所有语言和字符

我正在浏览一个用丹麦语写的网站。。我无法像må那样刮去某些字符。。有办法解决这个问题吗？

感谢您尝试UTF-8或Windows-1252字符集。

如果您使用的是Web浏览器控件，则可以将页面编码设置为可以显示该字符的任何语言。然后只提取页面源代码

我刚刚使用了System.Web.HttpContext.Current.Server.HtmlDecode（）

它可以工作。

我使用iso-8859-1进行解码。

HTH

最好使用与HttpWebResponse对象相同的编码，下面是使用所有语言和字符的代码

        response = (HttpWebResponse)request.GetResponse();
        string Charset = response.CharacterSet;

        Encoding encoding = Encoding.GetEncoding(Charset);

        if (response.StatusCode == HttpStatusCode.OK)
        {
            response_stream = new StreamReader(response.GetResponseStream(), encoding);

            html = response_stream.ReadToEnd();
        }

你能告诉我们你用来刮取内容的相关代码吗？你用来刮取内容的库/代码是什么？我没有使用库文件。。我只是在用regexOh我的。。。看看你为什么不应该使用正则表达式：@山姆，我不知道你的网站的结构，但是如果你只清理一个网站，而且它的建设是半途而废的，我会考虑你对它进行分组，并用一个查找字符串函数或类似的方法解析相关信息。但当然，我不知道你在做什么，所以在你填写之前，恐怕我们的帮助有限：-）谢谢..我试过..这里的网站有“windows-1252”编码