PHP邮件解析在非ascii字符上阻塞

PHP邮件解析在非ascii字符上阻塞,php,mime,email-parsing,Php,Mime,Email Parsing,我使用Mailparse在MySQL数据库中解析和存储电子邮件。电子邮件通过管道直接发送到PHP脚本。发送到系统的电子邮件中有99%以上被正确解析。然而,我注意到一些电子邮件被截断了。问题似乎在于消息头和消息体之间的unicode字符 Delivered-To: nkafq123@gmail.com Received: by 10.152.1.193 with SMTP id 1csp311490lao; Mon, 20 Oct 2014 05:33:31 -0700 (PDT)

我使用Mailparse在MySQL数据库中解析和存储电子邮件。电子邮件通过管道直接发送到PHP脚本。发送到系统的电子邮件中有99%以上被正确解析。然而,我注意到一些电子邮件被截断了。问题似乎在于消息头和消息体之间的unicode字符

Delivered-To: nkafq123@gmail.com
Received: by 10.152.1.193 with SMTP id 1csp311490lao;
        Mon, 20 Oct 2014 05:33:31 -0700 (PDT)
Return-Path: <lunalono@telia.com>
Received: from vps4596.inmotionhosting.com (vps4596.inmotionhosting.com. [74.124.217.238])
        by mx.google.com with ESMTPS id fb7si7786786pab.30.2014.10.20.05.33.30
        for <nkafq123@gmail.com>
        (version=TLSv1 cipher=RC4-SHA bits=128/128);
        Mon, 20 Oct 2014 05:33:30 -0700 (PDT)
Message-ID: <14FBD481E1074C79A706F0C071746F3D@acerDator>
From: =?utf-8?Q?Annelen_geretschl=C3=A4ger?= <lunalono@telia.com>
To: "neokio" <nkafq123@gmail.com>
References: <CAEMnOreG=99=qx-ONib=g+3mCQnUHC2kgdu2uBdSav5WP303BA@mail.gmail.com>
In-Reply-To: <CAEMnOreG=99=qx-ONib=g+3mCQnUHC2kgdu2uBdSav5WP303BA@mail.gmail.com>
Subject: This message will be broken
Date: Mon, 20 Oct 2014 14:33:24 +0200
MIME-Version: 1.0
Content-Type: multipart/alternative;
    boundary="----=_NextPart_000_0018_01CFEC72.CE424470"
X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
X-Mailer: Microsoft Windows Live Mail 14.0.8117.416
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8117.416
X-Source: 
X-Source-Args: 
X-Source-Dir: 

Det här är ett flerdelat meddelande i MIME-format.

------=_NextPart_000_0018_01CFEC72.CE424470
Content-Type: text/plain;
    charset="utf-8"
Content-Transfer-Encoding: quoted-printable

This is a test ... the above "Det här är" chunk will be cut off at "Det h", and nothing else will arrive.

------=_NextPart_000_0018_01CFEC72.CE424470
交付给:nkafq123@gmail.com
收到日期:193年1月10日,SMTP id为1csp311490lao;
2014年10月20日星期一05:33:31-0700(太平洋时间)
返回路径:
收到:来自vps4596.inmotionhosting.com(vps4596.inmotionhosting.com。[74.124.217.238])
由mx.google.com提供,ESMTPS id为fb7si7786786pab.30.2014.10.20.05.33.30
对于
(版本=TLSv1密码=RC4-SHA位=128/128);
2014年10月20日星期一05:33:30-0700(太平洋时间)
消息ID:
From:=?utf-8?Q?Annelen_geretschl=C3=A4ger?=
致:“新桥”
参考资料:
答复:
主题:此消息将被破坏
日期:2014年10月20日星期一14:33:24+0200
MIME版本:1.0
内容类型:多部分/备选;
boundary=“---=\u下一部分\u 000\u 0018\u 01CFEC72.CE424470”
X优先级:3
X-MSMail-Priority:正常
重要性:正常
X-Mailer:Microsoft Windows Live Mail 14.0.8117.416
X-MimeOLE:由Microsoft MimeOLE V14.0.8117.416制作
X源:
X源参数:
X源目录:
Det härärärett flerdelat meddelande i MIME格式。
------=\u下一部分\u 000\u 0018\u 01CFEC72.CE424470
内容类型:文本/纯文本;
charset=“utf-8”
内容传输编码:引用可打印
这是一个测试。。。上面的“Det härär”块将在“Det h”处被切断,其他任何内容都不会到达。
------=\u下一部分\u 000\u 0018\u 01CFEC72.CE424470
上面的内容将在标题之后被裁剪,到达的只是“Det h”。不知何故,当非ascii字符(ü)位于头或多部分包装器之外时,它们会导致mailparse阻塞。这可能是客户端正在使用的Microsoft Windows Live Mail的5年瑞典版本,弄乱了邮件头等等,但这不是借口,我需要能够接收它

我正在运行PHP5.4.30,它在PHP.ini中有
default\u charset=“utf-8”
。但是我注意到,默认情况下,
phpinfo()
具有
mailparse.def_charset=“us ascii”
,即使php.ini中没有配置它。添加行并将其设置为“utf8”后,
phpinfo()
正确显示utf-8。然而,错误依然存在。我没有主意了


关于如何处理这个错误有什么建议吗?

只是我在评论中提到的一个想法。。。此部分与消息的部分相关。如果由于某种原因解码失败,则返回“原样”内容。您可以尝试根据
$headers['transfer-encoding']对其进行解码或使其保持不变
$email
是一个完整的邮件源,带有标题<代码>$section
是通过
mailparse\u msg\u get\u part
获取的数据(手册、示例、谷歌)

结果(经过一些操作后,因为我只留下实际需要的标题)


嗯,很有趣。我还编写了一个邮件列表引擎,它使用
mailparse
解析源代码。是的,它在那个地方窒息了。。我有一个问题——你从哪里得到这个信息的?它不符合标准,因为
引用的可打印
文本版本应该是
这是一个测试。。。上面的“Det h=C3=A4r=C3=A4r”区块将在“Det h”处被截断,其他内容将不会到达。
-尝试使用它而不是字符串。是的,输出告诉相同的-
警告:mailparse\u msg\u extract\u part()-筛选器转换失败。输入消息的编码可能不正确
。您可以根据每个部分的
mailparse\u msg\u get\u part\u data
标题中的数据,直接从文件中提取正文,但您必须自己解码。您的编码是正确的,我只是在其中添加了这一点作为参考问题的注释。正如你所指出的:)我在这里仍然不知所措。在我看来,解析器的工作是更能容忍格式错误的MIME结构,特别是像unicode变体这样简单的东西。这只发生在收到的1%的电子邮件中的一小部分。。。使用有缺陷的电子邮件客户端的用户(本例中为Microsoft Windows Live)。但它仍然太高,不容忽视。我很高兴您看到了错误,这告诉我这不是我的实现的错:)唯一的方法,可能是按原样提取消息部分的内容(很容易),而不是使用
quoted\u printable\u decode
函数(如果设置了相应的编码),它不关心编码问题。
$headers = mailparse_msg_get_part_data($section);
$content = '';

set_error_handler(function() use(&$content, $headers, $email){
     $start   = $headers['starting-pos-body'];
     $end     = $headers['ending-pos-body'];
     $content = substr($email, $start, $end - $start);
});

ob_start();
mailparse_msg_extract_part($section, $email);
$body = ob_get_clean();

restore_error_handler();

if (!empty($content)) $body = $content;
["charset"]=>
string(5) "utf-8"
["content-charset"]=>
string(5) "utf-8"
["content-type"]=>
string(10) "text/plain"
["content"]=>
string(108) "This is a test ... the above "Det här är" chunk will be cut off at "Det h", and nothing else will arrive. "