substr截取中文字符出现乱码的解决方案
作者:佚名 时间:2012-02-05
这里提供一个函数可较好地解决substr遇到中文字符的问题。中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,网站建设好后保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 | function getstr( $string , $length , $encoding = 'utf-8' ) { $string = trim( $string ); if ( $length && strlen ( $string ) > $length ) { //截断字符 $wordscut = '' ; if ( strtolower ( $encoding ) == 'utf-8' ) { //utf8编码 $n = 0; $tn = 0; $noc = 0; while ( $n < strlen ( $string )) { $t = ord( $string [ $n ]); if ( $t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { $tn = 1; $n ++; $noc ++; } elseif (194 <= $t && $t <= 223) { $tn = 2; $n += 2; $noc += 2; } elseif (224 <= $t && $t < 239) { $tn = 3; $n += 3; $noc += 2; } elseif (240 <= $t && $t <= 247) { $tn = 4; $n += 4; $noc += 2; } elseif (248 <= $t && $t <= 251) { $tn = 5; $n += 5; $noc += 2; } elseif ( $t == 252 || $t == 253) { $tn = 6; $n += 6; $noc += 2; } else { $n ++; } if ( $noc >= $length ) { break ; } } if ( $noc > $length ) { $n -= $tn ; } $wordscut = substr ( $string , 0, $n ); } else { for ( $i = 0; $i < $length - 1; $i ++) { if (ord( $string [ $i ]) > 127) { $wordscut .= $string [ $i ]. $string [ $i + 1]; $i ++; } else { $wordscut .= $string [ $i ]; } } } $string = $wordscut ; } return trim( $string ); } // 示例 echo getstr( "0一二三四五六七" ,1). ' ; // 0 echo getstr( "0一二三四五六七" ,2). ' ; // 0 echo getstr( "0一二三四五六七" ,3). ' ; // 0一 echo getstr( "0一二三四五六七" ,4). ' ; // 0一 echo getstr( "0一二三四五六七" ,5). ' ; // 0一二 echo getstr( "0一a二b三四五六七" ,1). ' ; // 0 echo getstr( "0一a二b三四五六七" ,2). ' ; // 0 echo getstr( "0一a二b三四五六七" ,3). ' ; // 0一 echo getstr( "0一a二b三四五六七" ,4). ' ; // 0一a echo getstr( "0一a二b三四五六七" ,5). ' ; // 0一a |
如没特殊注明,文章均为上海联楷网络原创,转载请注明来自:http://www.linksj.com/contact/20151229/n7686.html