Ms word HTML整理,清理MS Word标记

Ms word HTML整理,清理MS Word标记,ms-word,markup,htmltidy,Ms Word,Markup,Htmltidy,拥有10年的归档文章数据,其中大部分都充斥着MS Word另存为html标记,如 首先,html是否能够完成剥离MS Word生成的标记的任务,还是需要采取另一种方法 其次,前几年的文章按月份进行全局合并,并作为文本存储类型存储在数据库中。我非常喜欢将这些内容分成单独的文章,这样我可以使网站更容易搜索(即,当搜索词/短语匹配时,不会显示整整一个月的新闻)。我必须使用的唯一清晰模式是文章标题(粗体,16-20px之间)和文章日期,通常为10px;标题和日期都显示在文章正文文本之前。当我没有精确的标

拥有10年的归档文章数据,其中大部分都充斥着MS Word另存为html标记,如

首先,html是否能够完成剥离MS Word生成的标记的任务,还是需要采取另一种方法

其次,前几年的文章按月份进行全局合并,并作为文本存储类型存储在数据库中。我非常喜欢将这些内容分成单独的文章,这样我可以使网站更容易搜索(即,当搜索词/短语匹配时,不会显示整整一个月的新闻)。我必须使用的唯一清晰模式是文章标题(粗体,16-20px之间)和文章日期,通常为10px;标题和日期都显示在文章正文文本之前。当我没有精确的标记可匹配时,是否有方法检测标记的
-性或
-性

这可能是几乎不可能回答的,但总的来说,你会采取什么方法来完成这项不令人满意的任务?;-)我在Scala的JVM上,但也可以在LAMP堆栈上完成清理工作


感谢您的想法

如果我是你,我会使用我最喜欢的Perl工具包。If非常适合处理复杂和模糊的问题,比如你的问题