用正则表达式扫描和解析HTML

用正则表达式扫描和解析HTML,html,regex,Html,Regex,我有一个特定的HTML源文件,我需要能够扫描和解析,我有麻烦。虽然我知道HTML不应该是作业的一部分,但这是作业的一部分,所以我别无选择 到目前为止,我的正则表达式是 开始标记的 我有其他的正则表达式用于结束标记和注释,效果很好,但我似乎无法在这里键入它们 我很难想出一个正则表达式来检测标签之间或正文中的所有文本 我将非常感谢任何可能的帮助。像这样使用 /<LI>(.*?)<LI>/g /(.*)/g 1) 按字面意思匹配字符(区分大小写) 2) *?匹配任何字符(行

我有一个特定的HTML源文件,我需要能够扫描和解析,我有麻烦。虽然我知道HTML不应该是作业的一部分,但这是作业的一部分,所以我别无选择

到目前为止,我的正则表达式是

开始标记的

我有其他的正则表达式用于结束标记和注释,效果很好,但我似乎无法在这里键入它们

我很难想出一个正则表达式来检测标签之间或正文中的所有文本

我将非常感谢任何可能的帮助。

像这样使用

/<LI>(.*?)<LI>/g
/
  • (.*)
  • /g
  • 1)
  • 按字面意思匹配字符(区分大小写)

    2)
    *?
    匹配任何字符(行终止符除外)

    3)
    *?
    量词-在零次和无限次之间进行匹配,次数尽可能少 尽可能,根据需要扩展

    4)
  • 按字面意思匹配字符(区分大小写)

    5)
    g
    修改器:全局。所有匹配项(第一次匹配后不返回)

    如下使用

    /<LI>(.*?)<LI>/g
    
    /
  • (.*)
  • /g
  • 1)
  • 按字面意思匹配字符(区分大小写)

    2)
    *?
    匹配任何字符(行终止符除外)

    3)
    *?
    量词-在零次和无限次之间进行匹配,次数尽可能少 尽可能,根据需要扩展

    4)
  • 按字面意思匹配字符(区分大小写)


    5)
    g
    修改器:全局。所有匹配项(第一次匹配后不返回)

    您的要求不清楚,但无论如何,正则表达式并不是解决问题的最佳选择,特别是如果您希望有嵌套的HTML标记。相反,要考虑使用HTML解析器。这正是解析器的用途。显示HTML的可能副本您的要求不清楚,但在任何情况下,正则表达式都不是解决问题的最佳选择,特别是如果您希望有嵌套的HTML标记。相反,要考虑使用HTML解析器。相关-这正是解析器的用途。显示HTML的可能重复您是否考虑过它将如何处理
  • 以下是一个
  • ?这是一个理想的/可接受的结果吗?您是否考虑过它会对
  • 产生什么影响?这是一个理想/可接受的结果吗?