Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/321.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# 刮网_C#_Screen Scraping - Fatal编程技术网

C# 刮网

C# 刮网,c#,screen-scraping,C#,Screen Scraping,我正在浏览一个用丹麦语写的网站。。我无法像må那样刮去某些字符。。 有办法解决这个问题吗? 感谢您尝试UTF-8或Windows-1252字符集。如果您使用的是Web浏览器控件,则可以将页面编码设置为可以显示该字符的任何语言。然后只提取页面源代码 我刚刚使用了System.Web.HttpContext.Current.Server.HtmlDecode() 它可以工作。我使用iso-8859-1进行解码。 HTH最好使用与HttpWebResponse对象相同的编码, 下面是使用所有语言和字符

我正在浏览一个用丹麦语写的网站。。我无法像må那样刮去某些字符。。 有办法解决这个问题吗?
感谢您尝试UTF-8或Windows-1252字符集。

如果您使用的是Web浏览器控件,则可以将页面编码设置为可以显示该字符的任何语言。然后只提取页面源代码

我刚刚使用了System.Web.HttpContext.Current.Server.HtmlDecode()
它可以工作。

我使用iso-8859-1进行解码。
HTH

最好使用与HttpWebResponse对象相同的编码, 下面是使用所有语言和字符的代码

        response = (HttpWebResponse)request.GetResponse();
        string Charset = response.CharacterSet;

        Encoding encoding = Encoding.GetEncoding(Charset);

        if (response.StatusCode == HttpStatusCode.OK)
        {
            response_stream = new StreamReader(response.GetResponseStream(), encoding);

            html = response_stream.ReadToEnd();
        }

你能告诉我们你用来刮取内容的相关代码吗?你用来刮取内容的库/代码是什么?我没有使用库文件。。我只是在用regexOh我的。。。看看你为什么不应该使用正则表达式:@山姆,我不知道你的网站的结构,但是如果你只清理一个网站,而且它的建设是半途而废的,我会考虑你对它进行分组,并用一个查找字符串函数或类似的方法解析相关信息。但当然,我不知道你在做什么,所以在你填写之前,恐怕我们的帮助有限:-)谢谢..我试过..这里的网站有“windows-1252”编码