防止将无效字符写入RSS源

防止将无效字符写入RSS源,rss,character-encoding,w3c-validation,Rss,Character Encoding,W3c Validation,我在写博客软件。偶尔,用户会将控制字符粘贴到他们的博客文章中(例如,最近有人成功粘贴到垂直标签字符&xB;)。当我们在RSS提要中呈现帖子时,XML解析器无法解析控制字符并声明提要无效 解决此问题的一种方法是逐个字符扫描字符串并删除任何无效字符。这意味着维护一个无效字符列表。有人知道这样的名单是否已经存在吗 或者有人知道图书馆已经处理了这个问题?我是用C#写的,但我可以移植用另一种语言写的库 还是我缺少了一些解决方案 注意,这似乎不是unicode或转义问题。RSS提要显示括号、中文字符、win

我在写博客软件。偶尔,用户会将控制字符粘贴到他们的博客文章中(例如,最近有人成功粘贴到垂直标签字符&xB;)。当我们在RSS提要中呈现帖子时,XML解析器无法解析控制字符并声明提要无效

解决此问题的一种方法是逐个字符扫描字符串并删除任何无效字符。这意味着维护一个无效字符列表。有人知道这样的名单是否已经存在吗

或者有人知道图书馆已经处理了这个问题?我是用C#写的,但我可以移植用另一种语言写的库

还是我缺少了一些解决方案


注意,这似乎不是unicode或转义问题。RSS提要显示括号、中文字符、wingdings、智能引号等。只是某些控制字符似乎使提要无法验证。

嗯。看起来此页面有一个很好的解决方案:


他们从XML规范中获取有效字符列表,只需迭代字符串并去除无效字符。

Hmm。看起来此页面有一个很好的解决方案:

他们从XML规范中获取有效字符列表,只需遍历字符串并去掉无效字符。

看看构建RSS提要的方法。该库可以很好地处理所有内容。

请查看构建RSS源的方法。图书馆处理一切都很好