带有HTML标记的C#

带有HTML标记的C#,c#,html,string,html-parsing,C#,Html,String,Html Parsing,我有一个网站,将阅读特定的XML风格的文件与PHP和显示一些内容。更新网站的人不太懂技术,所以我希望创建一个程序,将Powerpoint转换成我正在寻找的XML类型 我转换PowerPoint->RTF->HTML。示例输出如下所示: <p style="text-align:center;"><span style="background-color:#FFFFFF;font-family:Calibri font-size:44pt;">Title 1</spa

我有一个网站,将阅读特定的XML风格的文件与PHP和显示一些内容。更新网站的人不太懂技术,所以我希望创建一个程序,将Powerpoint转换成我正在寻找的XML类型

我转换PowerPoint->RTF->HTML。示例输出如下所示:

<p style="text-align:center;"><span style="background-color:#FFFFFF;font-family:Calibri font-size:44pt;">Title 1</span></p>
<p><span style="background-color:#FFFFFF;font-family:Calibri;font-size:32pt;">Data in here.</span></p>
<p>&nbsp;</p>
<p><span style="background-color:#FFFFFF;font-family:Calibri;font-size:32pt;">More Data.</span></p>
<p>&nbsp;</p>
标题1

数据在这里

更多数据

我希望逐行阅读这个HTMl,解释标记并用数据创建自己的文件

即:每个带有特定标签的标签都将被归类为标题,然后任何带有另一个特定标签的标签都将被归类为数据

例如,乌普图特:

<FILE>
    <ITEM>
        <TITLE>Title 1</TITLE>
        <DATA><p>Data in here</p><p>&nbsp;</p><p>More Data.</p></DATA>
    </ITEM>
</FILE>

标题1
这里的数据

更多数据

(如何)可以做到这一点

注意:我不想知道如何删除所有标记:和


注2:Powerpoint没有固定的字体/字号。如果可能的话,我希望它完全独立。如果这不起作用,是否可以在PowerPoint中使用固定的模板,使每个标题和数据部分都相同,从而具有相同的标记?

您是否考虑过使用类似或的插件?这就是他们的用意:“非技术”人员。它们很容易实现,保存到XML所需要做的就是从textarea元素中获取字符串。我不知道你的项目,或者你是否有其他理由使用PowerPoint,但我只是认为你需要付出巨大的努力才能从PPT中找到比这些插件更好的东西。

你可以使用
HtmlAgilityPack
解析HTML。这很好,但不是我想要的。在上传到服务器之前,我的程序将在客户端运行。为什么这会是一个问题?有没有办法通过C#或不使用客户端上运行的PHP从textarea获取数据?假设您的程序在浏览器上运行,正如您所说,它是一个网站,您可以使用javascript在客户端对其进行操作。它将如何与PPT一起工作?我不明白的另一件事是为什么需要c#和php。