.net 将查找带引号字符串但不在HTML标记内的正则表达式

.net 将查找带引号字符串但不在HTML标记内的正则表达式,.net,regex,.net,Regex,我一直在寻找一个正则表达式,它可以在HTML页面的内容中标识带引号的字符串,但如果引号是HTML标记属性的一部分,它就不会 例如: <p id="123">This is some "quoted text" in a <span class="test">sentence.</span></p> 这是句子中的一些“引用文本” 在上面的一行中,我想查找“引用的文本”字符串,但不是id=“123”或class=“test” 我试过一些,但没有成功

我一直在寻找一个正则表达式,它可以在HTML页面的内容中标识带引号的字符串,但如果引号是HTML标记属性的一部分,它就不会

例如:

<p id="123">This is some "quoted text" in a <span class="test">sentence.</span></p>

这是句子中的一些“引用文本”

在上面的一行中,我想查找“引用的文本”字符串,但不是id=“123”或class=“test”

我试过一些,但没有成功

下面的正则表达式提取了上面示例中的HTML标记,并排除了句子内容……但我希望它做相反的事情:

<[^>]+>
]+>

如果您想解析HTML以从中获得有用的东西,请使用-这样做非常简单


另请参见:

在这种特殊情况下,我认为您不会有太多保证。对于如何在HTML片段中组合带引号的字符串,有太多的选项。但是,根据您上面给出的具体示例,以下表达式将找到“引用的文本”:


(?)[^]*)“[^”]+”(?=[^]*(?):我认为正则表达式的功能不足以解析HTML,也不足以理解HTML的上下文。
(?<=(?:^|>)[^<>]*)"[^"]+"(?=[^<>]*(?:<|$))