很早以前找到一個把GB碼轉(zhuǎn)化為UTF-8的函數(shù),配合一個GB到UNICODE的對照表(gb2312.txt),用于在GD中輸出漢字。后來發(fā)現(xiàn)在欲輸出的內(nèi)容中含有西文字符時,會出現(xiàn)混亂。后來找到了修改后的代碼,解決了問題。現(xiàn)將兩個函數(shù)做一對比分析如下。
首先,這是一個UNICODE到UTF-8編碼轉(zhuǎn)換的函數(shù),這一部分修改前后沒有變化: function u2utf8($c) { for($i=0;$i<count($c);$i++) $str=""; if ($c < 0x80) { $str.=$c; } else if ($c < 0x800) { $str.=(0xC0 | $c>>6); $str.=(0x80 | $c & 0x3F); } else if ($c < 0x10000) { $str.=(0xE0 | $c>>12); $str.=(0x80 | $c>>6 & 0x3F); $str.=(0x80 | $c & 0x3F); } else if ($c < 0x200000) { $str.=(0xF0 | $c>>18); $str.=(0x80 | $c>>12 & 0x3F); $str.=(0x80 | $c>>6 & 0x3F); $str.=(0x80 | $c & 0x3F); } return $str; }
這里完全是按照UTF-8編碼的規(guī)則,通過判斷字符屬于不同的UNICODE編碼段范圍,進行不同的移位和位與操作,以轉(zhuǎn)化為UTF-8編碼。關(guān)于該規(guī)則可參考http://www.utf8.org/上的說明。
這是修改前的GB轉(zhuǎn)化為UTF-8編碼的函數(shù),其中調(diào)用了上面的u2utf8函數(shù)。 function gb2utf8($gb) /* Program writen by sadly www.phpx.com */ { if(!trim($gb)) return $gb; $filename="gb2312.txt"; $tmp=file($filename); $codetable=array(); while(list($key,$value)=each($tmp)) $codetable[hexdec(substr($value,0,6))]=substr($value,7,6); $utf8=""; while($gb) { if (ord(substr($gb,0,1))>127) { $this=substr($gb,0,2); $gb=substr($gb,2,strlen($gb)); $utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080])); } else { $gb=substr($gb,1,strlen($gb)); $utf8.=u2utf8(substr($gb,0,1)); } }
$ret=""; for($i=0;$i<strlen($utf8);$i+=3) $ret.=chr(substr($utf8,$i,3));
return $ret; } 函數(shù)中while循環(huán)部分,把漢字逐個按照“對照表”轉(zhuǎn)化為UNICODE,再通過u2utf8函數(shù)轉(zhuǎn)化為UTF-8。但從中可以看出,while循環(huán)結(jié)束后,又用一個for循環(huán),把每三個字節(jié)合成了一個UTF-8字符(見http://www.utf8.org/上的規(guī)則說明,每個漢字的UTF-8編碼為三字節(jié)),沒有考慮到其中的西文字符(西文字符的UTF-8編碼為一字節(jié))。所以,如果欲輸出的內(nèi)容中不論是開始時出現(xiàn)西文字符,或是漢字當(dāng)中穿插西文字符,轉(zhuǎn)化為UTF-8后,都會被按照“每三個字節(jié)截取”的方式截開,導(dǎo)致亂碼。
以下是修改后的函數(shù): function gb2utf8($gb) /* Program writen by sadly modified by agun */ { if(!trim($gb)) return $gb; $filename="gb2312.txt"; $tmp=file($filename); $codetable=array(); while(list($key,$value)=each($tmp)) $codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
$ret=""; $utf8=""; while($gb) { if (ord(substr($gb,0,1))>127) { $this=substr($gb,0,2); $gb=substr($gb,2,strlen($gb)); $utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080])); for($i=0;$i<strlen($utf8);$i+=3) $ret.=chr(substr($utf8,$i,3)); } else { $ret.=substr($gb,0,1); $gb=substr($gb,1,strlen($gb)); } } return $ret; }
修改后的函數(shù)將 GB轉(zhuǎn)化為UNICODE、UNICODE轉(zhuǎn)化為UTF-8、幾個字節(jié)合成一個UTF-8字符,這三個步驟在一個循環(huán)里完成,尤其是幾個字節(jié)合成一個UTF-8字符這一步驟,放在判斷了字符屬于西文還是屬于漢字的條件分支里,據(jù)此決定截取一個字節(jié)還是三個字節(jié)。于是結(jié)果正確了!
|