Sms 从收到的邮件中删除签名

Sms 从收到的邮件中删除签名,sms,Sms,我有一个python脚本,它接收来自用户的文本消息,并将其作为查询进行处理。但是,有些用户的消息会自动附加签名,脚本会错误地将其视为实际内容。识别和删除这些签名的最佳编程方式是什么 (我更喜欢python,但我也可以使用任何其他语言,也可以用伪代码来表达)如果签名总是遵循特定的模式,您应该可以使用正则表达式来删除它 但是,如果用户可以按照自己的意愿设置签名,并且没有前导字符(即:--),这将非常困难。唯一可靠的方法是提前知道每个用户的签名内容,这样您就可以去掉它。想象一个最坏的情况:某人总是可以

我有一个python脚本,它接收来自用户的文本消息,并将其作为查询进行处理。但是,有些用户的消息会自动附加签名,脚本会错误地将其视为实际内容。识别和删除这些签名的最佳编程方式是什么


(我更喜欢python,但我也可以使用任何其他语言,也可以用伪代码来表达)

如果签名总是遵循特定的模式,您应该可以使用正则表达式来删除它


但是,如果用户可以按照自己的意愿设置签名,并且没有前导字符(即:
--
),这将非常困难。唯一可靠的方法是提前知道每个用户的签名内容,这样您就可以去掉它。想象一个最坏的情况:某人总是可以发送一条空白消息,带有一个完全有效的“查询”签名。脚本无法将其与没有签名的“查询”消息区分开来。

如果签名附加到消息正文中,使其实际上是正文文本的一部分,则只有两种方法可以删除它们:

  • 启发式,例如“三个破折号后的任何内容都必须是签名”。如果您花一些时间对它们进行调整,这些可能会很有效
  • 分类器。这需要进行大量的设置,并且需要通过将一些消息部分标记为签名来“训练”它。这些方法也可能非常有效,但与启发式方法一样,它们永远不会100%有效

你能再解释一下分类器是如何工作的吗?@Joseph:分类器是一种算法,如神经网络、支持向量机或贝叶斯过滤器,它在已知语料库上“训练”,然后应用于未知语料库(出错时可能有反馈)。实现一个是不平凡的。