用C++提取HTML标签 我现在正在研究一个用C++编写的搜索引擎,爬虫会得到一个HTML文件列表,需要提取HTML标签并把它们放进一个文件。

用C++提取HTML标签 我现在正在研究一个用C++编写的搜索引擎,爬虫会得到一个HTML文件列表,需要提取HTML标签并把它们放进一个文件。,c++,html,xml,regex,parsing,C++,Html,Xml,Regex,Parsing,我听说过使用XML解析器,但我不知道如何将HTML文件转换为XHTML,此外,转换为XHTML在性能上非常昂贵。C++中的HTML解析器几乎不存在。 第三种方法是使用boostregex从HTML文件中提取这些标记,但我需要提取所有标记sp、h1、h2、a。。。因此,这将是一个有点太长了 在C++中如何获取HTML标记的其他解决方案?尝试使用XML解析器解析它,我通常使用RAPIDXML检查它的< /P> 您将获得HTML文件的所有标记和属性 尝试使用xml解析器解析它,我通常使用RapidXM

我听说过使用XML解析器,但我不知道如何将HTML文件转换为XHTML,此外,转换为XHTML在性能上非常昂贵。C++中的HTML解析器几乎不存在。 第三种方法是使用boostregex从HTML文件中提取这些标记,但我需要提取所有标记sp、h1、h2、a。。。因此,这将是一个有点太长了


在C++中如何获取HTML标记的其他解决方案?

尝试使用XML解析器解析它,我通常使用RAPIDXML检查它的< /P>
您将获得HTML文件的所有标记和属性

尝试使用xml解析器解析它,我通常使用RapidXML检查它


您将获得HTML文件的所有标记和属性

> p> >可以使用.< /p> 你可以使用./p>这似乎是一个模糊的例子,顺便说一下,这是谷歌对C++ HTML解析的第一个结果。答案是:你想要。我在Linux中编码,我能在QT中使用QT吗?QT是免费的,多平台软件,所以,是的,我自己主要使用Linux……这似乎是一个翻版,顺便说一下,这是谷歌C++的第一个HTML解析结果。答案是:你想要。我在linux中编码,我可以在其中使用QT吗?QT是免费的多平台软件,所以,是的,我自己主要使用linux…你能解释更多吗,比如我如何从html中获取xml文件谢谢[,它显示了如何获取包含所有标记和属性的xml_document doc;。检查此问题:您能否解释更多,如如何从html获取xml文件谢谢检查此[,它显示了如何获取包含所有标记和属性的xml_document doc;。检查此问题: