Php 提取HTML页面的一部分

Php 提取HTML页面的一部分,php,css,html-parsing,Php,Css,Html Parsing,是否可以使用PHP cURL、HTML DOM解析器或任何其他方法提取远程HTML页面的一部分,并将其打印到另一个页面上,从而保留原始格式样式、图像和选项卡功能? 例如,如何从中提取中心列的内容(使用制表符和格式,保留原始文本的外观) 据我所知,脚本应该处理外部CSS,以便返回的内容与原始内容具有相同的外观。如果可能的话,最合适的方式是什么?如果是,请举个例子。我看了几个例子,但没有找到任何解决方案。好吧,如果我必须快速完成(阅读:非常脏),我会这样做,我想: 使用标准PHP从远程服务器提取HT

是否可以使用PHP cURL、HTML DOM解析器或任何其他方法提取远程HTML页面的一部分,并将其打印到另一个页面上,从而保留原始格式样式、图像和选项卡功能? 例如,如何从中提取中心列的内容(使用制表符和格式,保留原始文本的外观)


据我所知,脚本应该处理外部CSS,以便返回的内容与原始内容具有相同的外观。如果可能的话,最合适的方式是什么?如果是,请举个例子。我看了几个例子,但没有找到任何解决方案。

好吧,如果我必须快速完成(阅读:非常脏),我会这样做,我想:

  • 使用标准PHP从远程服务器提取HTML
  • 使用你从另一个网站窃取的HTML,并在底部添加你自己的HTML
  • 还可以添加您自己的CSS来隐藏您不想显示的其他站点的html,并设置您自己的html样式
  • 拉小提琴直到它看起来足够好。但是:我认为这将破坏外部JS文件的加载,因为相同的域策略

    一个很好的方法是:

  • 使用标准PHP从远程服务器提取HTML
  • 用一些PHP HTML解析器解析HTML,去掉所有外部CSS和JS文件,同时也提取这些文件
  • 使用XPath提取所需的部分
  • 用你自己的HTML、你需要的部分、新下载的CSS和JS文件的链接创建一个新的HTML文档。还可以添加您自己的CSS和JS来设置结果的样式

  • 你知道:RSS就是为此而发明的,如果他们不提供RSS提要,他们很可能不希望你获取内容并将其发布到你自己的网站上P

    我觉得你想要这个是因为有点不道德。“但是,我怎么知道呢。我也这么想。”亚历山大。他可能想复制慈善专栏……除了对道德有点怀疑之外,你是否认为有一个特殊的页面,或者任何页面(即由JS创建的客户端页面)都需要这项工作@gdoron,是的,不错。这应该会让你获得幽默徽章+1@Gordon谢谢你编辑这篇文章。如果我的问题看起来不道德,引起了争论,我很抱歉。我无意窃取内容,反正是公开的,而且他们也从外部报纸上获取内容。我期待着解决任何页面的内容像这样,这只是一个很好的例子。是的,我知道RSS就是为此而发明的,而且有一种方法可以从任何内容创建RSS。