Email 针对电子邮件存储的重复数据消除建议

Email 针对电子邮件存储的重复数据消除建议,email,storage,deduplication,Email,Storage,Deduplication,建议的存储模型是将附件存储在单独的文件(或blob)中,并将电子邮件本身存储为MIME多部分消息,其中引用了附件及其编码方式。这允许用户显示原始数据,但不要求我将效率较低的base64与消息一起实际存储。大多数情况下,我将能够只存储所使用的base64行长度 这样,我们就可以执行附件级重复数据消除 但重复数据消除如何进一步发展?以下是我的想法: 当然,所有附件和电子邮件都可以单独压缩(字节级重复数据消除) 我可以在一个文件中压缩12个附件集。压缩同一类型的多个文件(例如PDF),甚至是来自同一

建议的存储模型是将附件存储在单独的文件(或blob)中,并将电子邮件本身存储为MIME多部分消息,其中引用了附件及其编码方式。这允许用户显示原始数据,但不要求我将效率较低的base64与消息一起实际存储。大多数情况下,我将能够只存储所使用的base64行长度

这样,我们就可以执行附件级重复数据消除

但重复数据消除如何进一步发展?以下是我的想法:

  • 当然,所有附件和电子邮件都可以单独压缩(字节级重复数据消除)
  • 我可以在一个文件中压缩12个附件集。压缩同一类型的多个文件(例如PDF),甚至是来自同一发件人的文件,可能更有效
  • MIME消息也可以在集合中进行压缩
  • 我不担心搜索效率,因为将使用全文索引
  • 搜索电子邮件当然会使用一种不会被压缩的全文索引
  • 解压缓存将在电子邮件第一次到达时创建,并且仅在一段时间内未查看电子邮件后删除

您在这方面有什么建议吗?对于电子邮件存储系统来说,什么是正常的?

如果您的“显示源”显示的内容与您收到邮件时的内容不同,那么各种垃圾邮件报告系统都会对您极为不满。出于这个原因,我们已经建议人们从Outlook切换到其他任何东西。它将显示完全相同的内容。放心。引用将自动替换为附件,文件编码将完全相同。这就是我要说的base64,每行x个字符。如果是一些不寻常的编码,那么将不使用引用。这就是我们如何始终确保准确地重新创建原始MIME消息的方法。如果澄清不清楚,请告诉我。