Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
将HTML写入XML文件 我在一个项目中,我从一个页面抓取HTML,用XML存储数据,然后从那里抓取特定标签之间的数据并输出到电子邮件文件。_Html_Xml_Xml Parsing - Fatal编程技术网

将HTML写入XML文件 我在一个项目中,我从一个页面抓取HTML,用XML存储数据,然后从那里抓取特定标签之间的数据并输出到电子邮件文件。

将HTML写入XML文件 我在一个项目中,我从一个页面抓取HTML,用XML存储数据,然后从那里抓取特定标签之间的数据并输出到电子邮件文件。,html,xml,xml-parsing,Html,Xml,Xml Parsing,我一直在通过互联网和stackexchange进行研究,以了解尝试完成此任务的基础知识。但是,我猜这可能不像将HTML编写为XML的几行代码那么简单。我不是在寻找直接代码,而是寻找一个大致正确的方向。它们有点不同。HTML是一种用于显示网站的标记语言,传统上是xml和样式表的组合。如果要转换为xml,应该使用刮刀从html页面提取相关数据,然后将结构化数据导出为xml。有许多不同语言的刮片工具,包括一些gui工具。HTML并不总是有效的XML。XHTML应该是有效的XML,但在野外,您会看到许多

我一直在通过互联网和stackexchange进行研究,以了解尝试完成此任务的基础知识。但是,我猜这可能不像将HTML编写为XML的几行代码那么简单。我不是在寻找直接代码,而是寻找一个大致正确的方向。

它们有点不同。HTML是一种用于显示网站的标记语言,传统上是xml和样式表的组合。如果要转换为xml,应该使用刮刀从html页面提取相关数据,然后将结构化数据导出为xml。有许多不同语言的刮片工具,包括一些gui工具。

HTML并不总是有效的XML。XHTML应该是有效的XML,但在野外,您会看到许多网站没有正确遵循标准(但仍然在浏览器中正确呈现),例如使用未关闭的

标记。您还将看到相当数量的HTML4.x和更低版本的网站,这些网站几乎肯定作为XML无效

您可能需要的是一个HTML解析库。根据您使用的平台的不同,有几种方法。其中许多将支持DOM解析和HTML文档的操作,并允许您提取所需的数据。然后,您可以将该数据写入有效的XML文件,或者写入您想要的任何其他目的地

我过去曾使用.NET和Python;两者都很有效。如果您正在使用其他平台,可能会有一个库来做类似的事情,但我们需要知道您想要什么平台

由于您是在JavaScript中执行此操作的,因此您可能希望使用jQuery或Angular.JS进行DOM操作和解析,这两种操作都是广泛支持的,并且有文档记录的DOM访问和操作选项


如果您在Node.JS中执行此操作,那么还有其他库,如jsdom和cheerio

我有一些评论。1.您应该能够用大多数XML解析器解析HTML。2.我认为您需要的是控制存储格式,以便读取数据的内容与存储的数据兼容,但是如果HTML数据发生更改,您只需更改存储它的代码。3.如果要将数据从HTML解析为XML,然后从XML中读取数据,那么以更轻的格式(如JSON)存储数据会更便宜。不确定这是否有帮助,但只是一些想法。感谢您的详细回复。这将通过JavaScript完成。在这种情况下,您可能希望使用jQuery或Angular.js之类的东西来进行DOM操作和解析。更新答案。