C# C编码移位JIS与utf8 html敏捷包

C# C编码移位JIS与utf8 html敏捷包,c#,html,encoding,html-agility-pack,C#,Html,Encoding,Html Agility Pack,我有个问题。我的目标是将日文Shift JS encodedhtml中的一些文本保存到utf8编码的文本文件中。 但我真的不知道如何对文本进行编码。。HtmlNode对象用Shift JS编码。但是在我使用ToString方法之后,内容被破坏了。 到目前为止,我的方法如下所示: public String getPage(String url) { String content = ""; HtmlDocument page = new HtmlWeb(

我有个问题。我的目标是将日文Shift JS encodedhtml中的一些文本保存到utf8编码的文本文件中。 但我真的不知道如何对文本进行编码。。HtmlNode对象用Shift JS编码。但是在我使用ToString方法之后,内容被破坏了。 到目前为止,我的方法如下所示:

public String getPage(String url)
    {
        String content = "";

        HtmlDocument page = new HtmlWeb(){AutoDetectEncoding = true}.Load(url);
        HtmlNode anchor = page.DocumentNode.SelectSingleNode("//div[contains(@class, 'article-def')]");

        if (anchor != null)
        {
            content = anchor.InnerHtml.ToString();
        }
        return content;
    }
byte[] pageBytes;
using (var client = new WebClient())
{
  pageBytes = client.DownloadData(url);
}
HtmlDocument page = new HtmlDocument();
using (var ms = new MemoryStream(pageBytes))
{
  page.Load(ms);
  var metaContentType = page.DocumentNode.SelectSingleNode("//meta[@http-equiv='Content-Type']").GetAttributeValue("content", "");
  var contentType = new System.Net.Mime.ContentType(metaContentType);
  ms.Position = 0;
  page.Load(ms, Encoding.GetEncoding(contentType.CharSet));
}
我试过了

Console.WriteLine(page.Encoding.EncodingName.ToString());
并且得到了:日本轮班JIS 但是将html转换为字符串会产生错误。我认为应该有一种方法,但由于html agility pack的文档很少,而且我无法通过google找到解决方案,所以我在这里也得到了一些提示

好吧,自动检测编码并不像你期望的那样工作。通过查看AgilityPack的源代码,我发现该属性仅在从磁盘加载本地文件时使用,而不是从url

所以有三种选择。一种方法是只设置编码

OverrideEncoding = Encoding.GetEncoding("shift-jis")
如果您知道编码将始终保持不变,那么这是最简单的修复方法

或者,您可以在本地下载文件,并以与现在相同的方式加载它,但不是传递文件路径的url

 using (var client=new WebClient())
 {
   client.DownloadFile(url, "20130519-OYT1T00606.htm");
 }
 var htmlWeb = new HtmlWeb(){AutoDetectEncoding = true};
 var file = new FileInfo("20130519-OYT1T00606.htm");
 HtmlDocument page = htmlWeb.Load(file.FullName);
或者,您可以从内容中检测编码,如下所示:

public String getPage(String url)
    {
        String content = "";

        HtmlDocument page = new HtmlWeb(){AutoDetectEncoding = true}.Load(url);
        HtmlNode anchor = page.DocumentNode.SelectSingleNode("//div[contains(@class, 'article-def')]");

        if (anchor != null)
        {
            content = anchor.InnerHtml.ToString();
        }
        return content;
    }
byte[] pageBytes;
using (var client = new WebClient())
{
  pageBytes = client.DownloadData(url);
}
HtmlDocument page = new HtmlDocument();
using (var ms = new MemoryStream(pageBytes))
{
  page.Load(ms);
  var metaContentType = page.DocumentNode.SelectSingleNode("//meta[@http-equiv='Content-Type']").GetAttributeValue("content", "");
  var contentType = new System.Net.Mime.ContentType(metaContentType);
  ms.Position = 0;
  page.Load(ms, Encoding.GetEncoding(contentType.CharSet));
}
最后,如果您查询的页面在响应中返回内容类型,您可以查找如何获得编码

您的代码当然需要比我的代码多一些空检查

好吧,自动检测编码并不像你期望的那样工作。通过查看AgilityPack的源代码,我发现该属性仅在从磁盘加载本地文件时使用,而不是从url

所以有三种选择。一种方法是只设置编码

OverrideEncoding = Encoding.GetEncoding("shift-jis")
如果您知道编码将始终保持不变,那么这是最简单的修复方法

或者,您可以在本地下载文件,并以与现在相同的方式加载它,但不是传递文件路径的url

 using (var client=new WebClient())
 {
   client.DownloadFile(url, "20130519-OYT1T00606.htm");
 }
 var htmlWeb = new HtmlWeb(){AutoDetectEncoding = true};
 var file = new FileInfo("20130519-OYT1T00606.htm");
 HtmlDocument page = htmlWeb.Load(file.FullName);
或者,您可以从内容中检测编码,如下所示:

public String getPage(String url)
    {
        String content = "";

        HtmlDocument page = new HtmlWeb(){AutoDetectEncoding = true}.Load(url);
        HtmlNode anchor = page.DocumentNode.SelectSingleNode("//div[contains(@class, 'article-def')]");

        if (anchor != null)
        {
            content = anchor.InnerHtml.ToString();
        }
        return content;
    }
byte[] pageBytes;
using (var client = new WebClient())
{
  pageBytes = client.DownloadData(url);
}
HtmlDocument page = new HtmlDocument();
using (var ms = new MemoryStream(pageBytes))
{
  page.Load(ms);
  var metaContentType = page.DocumentNode.SelectSingleNode("//meta[@http-equiv='Content-Type']").GetAttributeValue("content", "");
  var contentType = new System.Net.Mime.ContentType(metaContentType);
  ms.Position = 0;
  page.Load(ms, Encoding.GetEncoding(contentType.CharSet));
}
最后,如果您查询的页面在响应中返回内容类型,您可以查找如何获得编码


您的代码当然需要比我的代码多一些空检查

请给出一个真实世界的url,也许这会有帮助请给出一个真实世界的url,也许这会有帮助我试图覆盖编码,因为出于我的目的,它将始终是这种编码。很好。谢谢你的帮助@用户2399054:很高兴听到这个消息。如果它解决了您的问题,请不要忘记将其标记为“答案”。我尝试覆盖该编码,因为出于我的目的,它将始终是此编码。很好。谢谢你的帮助@用户2399054:很高兴听到这个消息。如果答案解决了你的问题,别忘了把它标为答案。