regex电子邮件不可见文本

regex电子邮件不可见文本,regex,spam,Regex,Spam,我收到了很多所谓“看不见”的垃圾邮件——在白色背景或评论标签上用白色字体隐藏的大块乱七八糟的文字。在cPanel“帐户级过滤器”中,我试图在电子邮件正文上构建一个正则表达式过滤器 这一个(捕捉注释标记中的胡言乱语)会导致太多误报,因为它捕捉包含偶尔注释标记的合法HTML文本: \<![ \r\n\t]*--[\S\s]{400,6000}--[ \r\n\t]*\> \ 这两个(白色背景上的白色文本)不是很有效-因为有太多的方法来编写令人不快的HTML-我不知道如何编写足够聪明的

我收到了很多所谓“看不见”的垃圾邮件——在白色背景或评论标签上用白色字体隐藏的大块乱七八糟的文字。在cPanel“帐户级过滤器”中,我试图在电子邮件正文上构建一个正则表达式过滤器

这一个(捕捉注释标记中的胡言乱语)会导致太多误报,因为它捕捉包含偶尔注释标记的合法HTML文本:

\<![ \r\n\t]*--[\S\s]{400,6000}--[ \r\n\t]*\>
\
这两个(白色背景上的白色文本)不是很有效-因为有太多的方法来编写令人不快的HTML-我不知道如何编写足够聪明的正则表达式:

\<div style=\"color:white\">[ \r\n\t]*.{1500,6000}[ \r\n\t]*\<\/div>

color=[\"\']*\#FFFFF[0-9A-E]
\[\r\n\t]*.{15006000}[\r\n\t]*\
颜色=[\“\']*\\\\\ FFF[0-9A-E]
提前感谢您的建议


例子

<div style="color:white">
Several paragraphs of gibberish designed to fool filters.
</div>


<!--
Several paragraphs of gibberish designed to fool filters.
-->

几段旨在欺骗过滤器的胡言乱语。

这些代码是检测垃圾邮件的很好的弱指示器。我强烈建议不要使用它们来独立地阻止消息。考虑一个像Spasasasin这样的系统,它实际上有像你试图写的ReXEXP。SpamAssassin把少量的点分配给每个指示器,然后把它们汇总起来,看看是否有EN。无法将邮件标记为垃圾邮件

Spamasassin注释规则:

  • __HTML_注释_10000
  • HTML\u字体\u极小
  • HTML\u字体\u低对比度
以下是SpamAssassin规则定义,可更准确地解决您的白人对白人问题:

rawbody\uuuuuu JOE\u COLOR\u WHITE/\b COLOR[:=][\s\“\']{0,5}(?:WHITE | \[ef]{3}\\[ef].[ef].[ef].[ef]./i
rawbody{uu JOE{BGCOLOR\u WHITE/\b(?:BGCOLOR{124; background(?::=][\s\'\'”]{0,5}(?:WHITE}\\\[ef]{3}\[ef].[ef].[ef].[ef]./i
meta JOE_WHITE_ON_WHITE _JOE_COLOR_WHITE&&u JOE_BGCOLOR_WHITE
乔·怀特在乔·怀特0.5分
在电子邮件的白色部分有白色文本,另一部分有白色背景

我对“白色”有一个更宽泛的定义,但这似乎是你的意图(“FFFFF 0蓝色稍少。我的正则表达式的宽度是RGB通道的两倍,适用于所有三个RGB通道,并且还匹配较短的三个十六进制形式。我上面定义的规则的缺点是它不能确保白色文本实际呈现在白色背景上。这应该“足够接近”但是可能会意外地遇到一些非垃圾邮件营销/时事通讯邮件。

最好显示一些示例输入,以便我们使用。感谢您的建议,我正在运行SpamAssassin,但不知道我可以为它编写自己的规则或在何处应用它们。我将不得不研究它-感谢您的回复。