【PHP】substr截取中文字符出现乱码的解决方案

    PHP中的substr函数:

    string substr ( string $string , int $start [, int $length ] )

    返回string中从start位置开始长度为length的字符串



    substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。

    查了一下,解决方案归结起来可分两类:

    1、改用mb_substr()函数

    string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )

    类似substr()函数,只是计数按字符数来计,保证字符安全

    使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。

    2、自建函数增强substr功能

    这里提供一个函数可较好地解决substr遇到中文字符的问题。中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。

    function getstr($string, $length, $encoding  = 'utf-8') {
        $string = trim($string);
    
        if($length && strlen($string) > $length) {
            //截断字符
            $wordscut = '';
            if(strtolower($encoding) == 'utf-8') {
                //utf8编码
                $n = 0;
                $tn = 0;
                $noc = 0;
                while ($n < strlen($string)) {
                    $t = ord($string[$n]);
                    if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
                        $tn = 1;
                        $n++;
                        $noc++;
                    } elseif(194 <= $t && $t <= 223) {
                        $tn = 2;
                        $n += 2;
                        $noc += 2;
                    } elseif(224 <= $t && $t < 239) {
                        $tn = 3;
                        $n += 3;
                        $noc += 2;
                    } elseif(240 <= $t && $t <= 247) {
                        $tn = 4;
                        $n += 4;
                        $noc += 2;
                    } elseif(248 <= $t && $t <= 251) {
                        $tn = 5;
                        $n += 5;
                        $noc += 2;
                    } elseif($t == 252 || $t == 253) {
                        $tn = 6;
                        $n += 6;
                        $noc += 2;
                    } else {
                        $n++;
                    }
                    if ($noc >= $length) {
                        break;
                    }
                }
                if ($noc > $length) {
                    $n -= $tn;
                }
                $wordscut = substr($string, 0, $n);
            } else {
                for($i = 0; $i < $length - 1; $i++) {
                    if(ord($string[$i]) > 127) {
                        $wordscut .= $string[$i].$string[$i + 1];
                        $i++;
                    } else {
                        $wordscut .= $string[$i];
                    }
                }
            }
            $string = $wordscut;
        }
        return trim($string);
    }
    
    // 示例
    echo getstr("0一二三四五六七",1).'<br />';  // 0
    echo getstr("0一二三四五六七",2).'<br />';  // 0
    echo getstr("0一二三四五六七",3).'<br />';  // 0一
    echo getstr("0一二三四五六七",4).'<br />';  // 0一
    echo getstr("0一二三四五六七",5).'<br />';  // 0一二
    echo getstr("0一a二b三四五六七",1).'<br />';    // 0
    echo getstr("0一a二b三四五六七",2).'<br />';    // 0
    echo getstr("0一a二b三四五六七",3).'<br />';    // 0一
    echo getstr("0一a二b三四五六七",4).'<br />';    // 0一a
    echo getstr("0一a二b三四五六七",5).'<br />';    // 0一a
    

    此函数由UCHome 1.5中的getstr()函数修改而来。



    本博客所有文章如无特别注明均为原创。
    复制或转载请以超链接形式注明转自枫芸志,原文地址《【PHP】substr截取中文字符出现乱码的解决方案
    标签:
    分享:

已经有8 条评论抢在你前面了~

  1. 沙发
    toobull 2011年5月15日 下午3:49

    你好,为什么我用mb_substr也不行呢,还是乱码的哦…..

    [回复]

    晴枫

    晴枫 回复:

    @toobull, 确认一下的你的文件字符集是否和页面的字符集相同

    [回复]

    toobull 回复:

    @晴枫, 是一样的哦,都是utf8的,用mb_substr和substr效果完全一样….这是为什么呢?
    内容都是连续的汉字,我截取的数量是3的整数倍,是没有乱码的,而当其中带有空格或者回车什么的就不一定了……

    其实关键点是,为啥mb_substr和substr效果完全一样呢?照理说应该完全不一样的,是不是?

    [回复]

    晴枫

    晴枫 回复:

    @toobull, 可能你省略了mb_substr的第四个参数——字符集,默认估计是ASCII,结果与substr相同,应该传’UTF-8′

    [回复]

    toobull 回复:

    @晴枫, 的确是这样的,加上’UTF-8’就好了,谢谢啦!

    [回复]

  2. 板凳
    vêtements femmes 2009年10月19日 下午4:12

    学习学习啊

    [回复]

无觅相关文章插件,快速提升流量