如何保证在php中使用CURL准确地刮取utf-8字符?

如何保证在php中使用CURL准确地刮取utf-8字符?,utf-8,curl,screen-scraping,Utf 8,Curl,Screen Scraping,我正在抓取带有重音字符(如“é”)的网页(使用php的curl)。 在这些网页的源代码中,这些字符是使用utf-8编写的(它们不是html编码的) 但是,当使用以下代码生成结果时,我得到的是问号而不是重音字符 $ch = curl_init(); $timeout = 5; curl_setopt ($ch, CURLOPT_URL, $website); curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt ($ch, CURLOP

我正在抓取带有重音字符(如“é”)的网页(使用php的curl)。 在这些网页的源代码中,这些字符是使用utf-8编写的(它们不是html编码的)

但是,当使用以下代码生成结果时,我得到的是问号而不是重音字符

$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $website);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file = curl_exec($ch);
curl_close($ch);
从抓取的网页返回的标题信息表明内容设置为“html/text”。没有迹象表明它是utf-8编码的。我已经尝试使用CURLOPT_HTTPHEADER curl选项来更改文本编码,但这没有任何作用


我遗漏了什么?

根据我问题的答案,看一看


多米尼克·罗杰的回答救了我一命。

根据我问题的答案,看看


多米尼克·罗杰的回答救了我一命。

嗨,首先,你确定问题不在于你用来打开文件的文件编辑器,它不能正确识别编码吗?或者是显示结果的网页?首先,您好,您确定用于打开文件的文件编辑器没有正确识别编码的问题吗?或者使用显示结果的网页?