Delphi HttpGetText(),自动检测字符集,并将源代码转换为UTF8

Delphi HttpGetText(),自动检测字符集,并将源代码转换为UTF8,delphi,character-encoding,synapse,Delphi,Character Encoding,Synapse,我正在使用HttpGetText和Synapse for Delphi 7 Professional来获取网页的源代码,但请随意推荐任何组件和代码 目标是通过将非ASCII字符“统一”到单个字符集来节省一些时间,这样我就可以使用相同的Delphi代码来处理它 所以我正在寻找类似于“全选并在记事本++中转换为无BOM的UTF”的东西,如果你知道我的意思的话。ANSI而不是UTF8也可以 网页编码为3个字符集:UTF8,“ISO-8859-1=Win 1252=ANSI”和没有字符集规范的HTML4

我正在使用HttpGetText和Synapse for Delphi 7 Professional来获取网页的源代码,但请随意推荐任何组件和代码

目标是通过将非ASCII字符“统一”到单个字符集来节省一些时间,这样我就可以使用相同的Delphi代码来处理它

所以我正在寻找类似于“全选并在记事本++中转换为无BOM的UTF”的东西,如果你知道我的意思的话。ANSI而不是UTF8也可以

网页编码为3个字符集:UTF8,“ISO-8859-1=Win 1252=ANSI”和没有字符集规范的HTML4,即htmlencoded
Å在内容中键入字符


如果我需要编写一个PHP页面来进行转换,也可以。代码/时间越短越好。

当您检索网页时,其
内容类型
标题(或者有时HTML本身中的
标记)会告诉您哪个字符集用于数据。您可以使用该字符集将数据解码为Unicode,然后可以将Unicode编码为处理所需的任何字符。

我使用GpTextStream检索HTML后直接进行反向转换。使文档符合ISO-8859-1使它们可以使用直接的Delphi进行处理,从而节省了大量代码更改。输出时,所有数据都转换为UTF-8:)

这里有一些代码。也许不是最漂亮的解决方案,但它肯定能在更短的时间内完成任务。请注意,这是用于反向转换的

procedure UTF8FileTo88591(fileName: string);
const bufsize=1024*1024;
var
fs1,fs2: TFileStream;
ts1,ts2: TGpTextStream;
buf:PChar;
siz:integer;
    procedure LG2(ss:string);
    begin
        //dont log for now.
    end;

begin
    fs1 := TFileStream.Create(fileName,fmOpenRead);
    fs2 := TFileStream.Create(fileName+'_ISO88591.txt',fmCreate);
    //compatible enough for my purposes with default 'Windows/Notepad' CP 1252 ANSI and Swe ANSI codepage, Latin1 etc.
    //also works for ASCII sources with htmlencoded accent chars, naturally
    try
      LG2('Files opened OK.');
      GetMem(buf,bufsize);
      ts1 := TGpTextStream.Create(fs1,tsaccRead,[],CP_UTF8);
      ts2 := TGpTextStream.Create(fs2,tsaccWrite,[],ISO_8859_1);
      try
        siz:=ts1.Read(buf^,bufsize);
        LG2(inttostr(siz)+' bytes read.');
        if siz>0 then ts2.Write(buf^,siz);
      finally
        LG2('Bytes read and written OK.');
      FreeAndNil(ts1);FreeAndNil(ts2);end;
    finally FreeAndNil(fs1);FreeAndNil(fs2);FreeMem(buf);
        LG2('Everything freed OK.');
    end;
end; // UTF8FileTo88591

谢谢问题是Synapse是否会这样做,或者我是否需要编写其他代码。通常是怎么做的?@Henrik:我上次检查时,Synapse不会自动解码数据。您必须自己检查HTTP头和/或HTML内容,然后手动解码数据。FWIW,Indy 10的当前版本为您进行解析和解码。