C# 如何删除windows-1251字符集中字符串上的未知字符
我有一个无法转换为windows-1251字符集的文本。例如:C# 如何删除windows-1251字符集中字符串上的未知字符,c#,string,charset,windows-1251,C#,String,Charset,Windows 1251,我有一个无法转换为windows-1251字符集的文本。例如: 中华全国工商业联合会-HelloWorld 我有一种从UTF8转换到windows-1251的方法: static string ChangeEncoding(string text) { if (text == null || text == "") return ""; Encoding win1251 = Encoding.GetEncoding(&qu
中华全国工商业联合会-HelloWorld
我有一种从UTF8转换到windows-1251的方法:
static string ChangeEncoding(string text)
{
if (text == null || text == "")
return "";
Encoding win1251 = Encoding.GetEncoding("windows-1251");
Encoding ascii = Encoding.UTF8;
byte[] utfBytes = ascii.GetBytes(text);
byte[] isoBytes = Encoding.Convert(ascii, win1251, utfBytes);
return win1251.GetString(isoBytes);
}
现在它返回这个:
??????????-HelloWorld
我不想显示未正确转换为windows1251字符集的字符。在这种情况下,我只想:
-HelloWorld
我怎样才能做到这一点?根据@Jeroemoster的建议,这种方法帮助我:
public static string ChangeEncoding(string text)
{
Encoding win1251 = Encoding.GetEncoding("windows-1251", new EncoderReplacementFallback(string.Empty), new DecoderExceptionFallback());
return win1251.GetString(Encoding.Convert(Encoding.UTF8, win1251, Encoding.UTF8.GetBytes(text)));
}
string.Replace(“?”,”)代码>@Neil不是个好主意。原始文本可能包含?
字符。@Neil如果字符串已经包含类似“?”的字符会怎么样中华全国工商业联合会-?HelloWorld为什么要转换为UTF-8(与ASCII不同),然后再从UTF-8转换为Windows-1251?您的文本是一个字符串—它只是一个Unicode字符序列(UTF-16代码单元)。首先转换为UTF-8没有意义。您可以通过使用.GetEncoder
并在.Fallback
中提供一个自定义EncoderFallback
实现来实现这一点,该实现可以删除字符,而不是替换字符(如果使用了,您可以让它设置一个标志,以便检测删除情况)。不过,如果可能的话,最好在数据库端进行更改,以便存储Unicode(对于SQL Server来说,这意味着使用NVARCHAR
而不是VARCHAR
,许多其他数据库系统都有类似的功能,或者它们直接支持UTF-8)。。。你为什么要把UTF-8带到这里来?