C# 取出一些div标记,并用c转换成json或xml文件格式#

C# 取出一些div标记,并用c转换成json或xml文件格式#,c#,html,css,xml,json,C#,Html,Css,Xml,Json,我想从html网页url中提取一些div标记及其内部标记,并将这些标记转换为XML或JSON文件格式。我正在寻找这样做的解决方案(理论上)。有谁能给我一些建议吗?如果您使用的是VS2005及以上版本,这可能会对您有所帮助。使用与Visual studio配合良好的Spire.doc工具 Doc是一个MS Word组件,使用户能够直接执行广泛的Word文档处理任务,例如为.NET和Silverlight生成、读取、写入和修改Word文档 Doc提供了一个将HTML转换为XML的简单解决方案。我们只

我想从html网页url中提取一些div标记及其内部标记,并将这些标记转换为XML或JSON文件格式。我正在寻找这样做的解决方案(理论上)。有谁能给我一些建议吗?

如果您使用的是VS2005及以上版本,这可能会对您有所帮助。使用与Visual studio配合良好的Spire.doc工具

Doc是一个MS Word组件,使用户能够直接执行广泛的Word文档处理任务,例如为.NET和Silverlight生成、读取、写入和修改Word文档

Doc提供了一个将HTML转换为XML的简单解决方案。我们只需要在VisualStudio中创建一个项目,并使用下面简单的3行代码。现在,将下面的代码复制到项目中,以将文件从HTML转换为XML

[C#]

(注意:如果这样做有效,请投票表决此答案,以便对其他人有所帮助)

问候,


Mani

WebClient类提供了从URI标识的任何本地、内部网或Internet资源发送/接收数据的常用方法

WebClient类使用WebRequest类提供对资源的访问。WebClient实例可以通过任何WebRequest访问数据

使用此对象可以执行三个步骤:

  • 从URL或这些网页获取页面HTML/Anchor标记的/Div内容
  • 将集合导出为JSON或XML
  • 稍后再使用JSON或XML数据:p
  • 上述只是理论上的东西
    如果您真的想尝试,它实际上可能会帮助您从页面

    获取HTML标记列表,而不是静态HTML“sample.HTML”,我建议您通过获取url或传递整个查询字符串来引用页面,您可以通过这些字符串使其工作。值得一试。谢谢,我测试过了。首先,它不适用于URL,其次,它甚至不适用于html文本文件。我认为它可以用于其他目的,比如操纵word格式文件。
    using System;
    using System.Collections.Generic;
    using System.Linq;
    using System.Text;
    using Spire.Doc;
    
    namespace Xml2Pdf
    {
        class Program
        {
            static void Main(string[] args)
            {
                Document doc = new Document();
                doc.LoadFromFile("sample.html", FileFormat.Html);
                doc.SaveToFile("test.xml", FileFormat.Xml);
            }
        }
    }