PHP多字节UTF-8字符串正在缓慢降级
我正在尝试将以下javascript函数转换为PHP:PHP多字节UTF-8字符串正在缓慢降级,php,javascript,multibyte,lzw,Php,Javascript,Multibyte,Lzw,我正在尝试将以下javascript函数转换为PHP: function lzw_decode(s) { var dict = {}; var data = (s + "").split(""); var currChar = data[0]; var oldPhrase = currChar; var out = [currChar]; var code = 256; var phrase; debugger; for (
function lzw_decode(s) {
var dict = {};
var data = (s + "").split("");
var currChar = data[0];
var oldPhrase = currChar;
var out = [currChar];
var code = 256;
var phrase;
debugger;
for (var i=1; i<data.length; i++) {
var currCode = data[i].charCodeAt(0);
if (currCode < 256) {
phrase = data[i];
}
else {
phrase = dict[currCode] ? dict[currCode] : (oldPhrase + currChar);
}
out.push(phrase);
currChar = phrase.charAt(0);
dict[code] = oldPhrase + currChar;
code++;
oldPhrase = phrase;
}
return out.join("");
}
功能lzw_解码{
var dict={};
变量数据=(s+“”)。拆分(“”);
var currChar=数据[0];
var oldphase=currChar;
var out=[currChar];
var代码=256;
var短语;
调试器;
对于(var i=1;i
当此函数用于某些LZW编码的字符串时,如果使用足够长的字符串,您会发现它不是100%准确的。我猜这是多字节字符串和我的粗心造成的问题。有人有什么想法吗?“如果使用足够长的字符串,您会发现它不是100%准确的”-一个示例字符串就好了。抱歉,这里有一个输出不正确的示例:输出应该是:我从中获取了lzw_encode
函数,用它对正确的输出进行编码,通过解码运行它,并得到正确的结果。问题可能在其他地方-您给deco的输入de
可能位于UTF-8以外的字符集中,或者相应的编码中可能存在错误。似乎已经有一个用于php的lzw库。您可以在这里找到它:“如果使用足够长的字符串,您可以看到它不是100%准确的”-一个示例字符串就好了。抱歉,这里有一个输出不正确的示例:输出应该是:我从中获取了lzw_encode
函数,用它对正确的输出进行编码,通过解码运行它,并得到正确的结果。问题可能在其他地方-您给deco的输入de
可能位于UTF-8以外的字符集中,或者相应的编码中可能存在错误。似乎已经有一个用于php的lzw库。您可以在此处找到它:
function uniord($c) {
$a = unpack('N', mb_convert_encoding($c, 'UCS-4BE', 'UTF-8'));
return($a[1]);
}
function mb_str_split( $string ) {
# Split at all position not after the start: ^
# and not before the end: $
return preg_split('/(?<!^)(?!$)/u', $string );
}
function decode($s){
$dict = array();
$data = mb_str_split($s);
// print_r($data);
$currChar = $data[0];
// echo $currChar;
// exit();
$oldPhrase = $currChar;
$out = array();
$out[] = $currChar;
$code = 256;
$phrase;
for ($i=1; $i < count($data); $i++) {
$currCode = uniord($data[$i]);
if($currCode < 256){
$phrase = $data[$i];
}else{
$phrase = isset($dict[$currCode]) ? $dict[$currCode] : ($oldPhrase . $currChar);
}
$out[] = $phrase;
$currChar = mb_substr($phrase, 0, 1);
$dict[$code] = $oldPhrase . $currChar;
$code++;
$oldPhrase = $phrase;
}
return implode("", $out);
}