Regex:使用PHP从锚标记中提取http和title属性

Regex:使用PHP从锚标记中提取http和title属性,php,regex,Php,Regex,我有一堆这样结构的URL <h4 class="classname"><a href="http://some-website.com" onclick="someVaryingJS();" title="Some Title">Some Title</a><h4> 我希望能够仅提取href和title属性,记住每个标记的onclick属性更改,并且我只希望对该类h4内的锚定标记执行此操作。您可以将html片段加载到中,并从中处理它 显然,它

我有一堆这样结构的URL

<h4 class="classname"><a href="http://some-website.com" onclick="someVaryingJS();" title="Some Title">Some Title</a><h4>


我希望能够仅提取href和title属性,记住每个标记的onclick属性更改,并且我只希望对该类h4内的锚定标记执行此操作。

您可以将html片段加载到中,并从中处理它


显然,它将更加灵活,但比直接的正则表达式要重得多。

您想使用一些DOM工具来实现这一点,而不是正则表达式;)DOM解析器可能是更好的选择。Esp如果没有设置结构(即如果
中允许使用其他标记)@iamthejeff:为了扩展nikic的建议,请尝试jQuery:)不要忘记XHTML是一个很大的XML文档。关于PHP不太清楚,但在.NET中,如果XHTML格式良好,可以使用XML库编写XPATH表达式来查找标记中的所有标记,并从中获取属性值。Good luckI应该提到我正在抓取一个站点来获取标签(合法的意图!),所以不幸的是,任何类型的客户端处理都不适用于此