C# 无法在C中正确下载西里尔字母编码的HTML页面#
我试图下载HTML网页本地到我的电脑,这是很好的工作,但是,这是一篇保加利亚的文章,似乎并没有正确显示后 我曾尝试过许多来自MSDN的编码(代码页标识符-WINDOWS-1251、UTF-8等),但由于某些原因,我无法按预期打开它 例如: Саааааааа-ааааааааааааааа 显示为: N�?�N�?� ???�?�???????� - ???�?�??N�?�N?N�???�???�N�?� ??N�NSN?N�????N�?� ???� ?�?�?�???�??不?不??????�N???N?N�N�???? 下面我发布我的简单代码。非常感谢您的帮助!:)C# 无法在C中正确下载西里尔字母编码的HTML页面#,c#,C#,我试图下载HTML网页本地到我的电脑,这是很好的工作,但是,这是一篇保加利亚的文章,似乎并没有正确显示后 我曾尝试过许多来自MSDN的编码(代码页标识符-WINDOWS-1251、UTF-8等),但由于某些原因,我无法按预期打开它 例如: Саааааааа-ааааааааааааааа 显示为: N�?�N�?� ???�?�???????� - ???�?�??N�?�N?N�???�???�N�?� ??N�NSN?N�????N�?� ???� ?�?�?�???�??不?不?????
以什么形式显示?您确定使用了正确的编码吗?我刚刚在Net Core中复制了这个,使用
Encoding.GetEncoding(“utf-8”)
编写,效果很好。您好,谢谢您的回复,您是否正在尝试使用西里尔文网页?你可以试试我列出的那一本,它是保加利亚语的。对于英国人来说,我知道它很好用。谢谢我正在使用你的页面。它以保加利亚语出版。是网络核心的变体。这就是它为您提供的downloadedpage.html:html文档文本,UTF-8 Unicode(带BOM)文本,具有很长的行,带有CRLF、LF行终止符
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Net;
namespace pageDownloader
{
class Program
{
public static void DownloadPage()
{
WebClient client = new WebClient();
string webpage = client.DownloadString("http://www.nasamnatam.com/statia/Stara_planina_velichestvenata_krystnica_na_Balkanskiia_poluostrov-2525.html");
System.IO.File.WriteAllText(@"C:\test\downloadedpage.html", webpage, Encoding.GetEncoding("windows-1251"));
}
static void Main()
{
DownloadPage();
}
}
}