C# 格式化从其他网站随机复制的文本的最佳方法?

C# 格式化从其他网站随机复制的文本的最佳方法?,c#,javascript,html,css,user-generated-content,C#,Javascript,Html,Css,User Generated Content,问题: 我的网站允许用户将其他文件/文档(如MS Word和网站(如CNN.com))中的内容复制/粘贴到我们提供的富文本编辑器中。这个Rick TextEditor支持(而且我们也必须支持)使用嵌入样式粘贴内容,这带来了来自内容源的随机样式、标记和内联样式 例如:如果你从任何MS word文档中粘贴,它会带来具有自己风格的H1、H2、p、UL/OL/LI、STRONG、I、EM、TABLE等。从其他网页复制粘贴时也会发生同样的情况 如何格式化? 我正在寻找处理这类用户生成内容格式的最佳方法。首

问题:

我的网站允许用户将其他文件/文档(如MS Word和网站(如CNN.com))中的内容复制/粘贴到我们提供的富文本编辑器中。这个Rick TextEditor支持(而且我们也必须支持)使用嵌入样式粘贴内容,这带来了来自内容源的随机样式、标记和内联样式

例如:如果你从任何MS word文档中粘贴,它会带来具有自己风格的
H1、H2、p、UL/OL/LI、STRONG、I、EM、TABLE
等。从其他网页复制粘贴时也会发生同样的情况

如何格式化? 我正在寻找处理这类用户生成内容格式的最佳方法。首先,我需要保持复制的标签完好无损。比方说,H1是从微软Word的用户那里带来的——我必须使用给定的公司品牌来保持这种风格

另一个问题是,当您从外部原点复制/粘贴时(某些标记未正确关闭),这会导致布局中断。我们如何处理这件事

对于样式,我正在申请

.article * {
   allKnownCSSProperties: myValues!important;
}

任何方法都可以。JavaScript,C#是首选。我会尝试解决缺少闭合标记的问题,如下所示:
解析整个消息并收集不是以
/>
结尾的标记,如果您发现相同的标记以
开头,则删除它们以除去不需要的样式一个简单的正则表达式就足够了。在Javascript中:

/( style=['"][^'"]*['"])/g

这将删除样式属性或清空该属性?它将匹配样式属性。然后可以将其删除。同一个正则表达式在Javascript或C#中大致相似。这有帮助吗?到目前为止您尝试了什么?我发布的正则表达式是一个JS正则表达式,在c语言中类似于:@“(style=[''”[^']*[''”)”