[제나플러스] cut_str 함수에서 UTF-8을 위한 마지막 글자 처리
본문
common.lib.php 파일 내부의 cut_str() 함수를 일단 한번 수정해봤습니다.
제가 이쪽분야로는 워낙 지식이 짧은 관계로, 첨부된 그림파일 정도의 테스트를 해보고 올립니다.
고수님들께서 한번 검토해보시고 오류가 있으면 댓글을 가차없이 달아주시기 바랍니다. ^^;
4바이트는 사용되는 일이 거의 없다라고 하던데, 그냥 넣었습니다. (ㅡ.ㅡ;)a
그리고, 중간문자가 깨질 수 있는 상황에 대해서는 고려하지 않았습니다.
참고로, 그림의 문자들은... 다른나라 글자하고는 별로 친하지 않은 관계로 무슨 내용인지는 모릅니다. ㅡ.ㅡ;
function cut_str($str, $len, $suffix="…")
{
global $g4;
$s = substr($str, 0, $len);
$cnt = 0; // 마지막 글자에서 잘린 후 남겨진 바이트 수
$s_len = strlen($s);
// UTF-8 마지막 글자 깨짐 처리
if (strtoupper($g4['charset']) == 'UTF-8') {
for ($i=0; $i<$s_len; $i++) {
$oc = ord($s[$i]);
if ( ($oc & 0xF8) == 0xF0 ) // 4byte
{
if ($i+4 >= $s_len) { $cnt = ($s_len-$i)%4; break; }
else $i+=3;
}
else if ( ($oc & 0xF0) == 0xE0 ) // 3byte
{
if ($i+3 >= $s_len) { $cnt = ($s_len-$i)%3; break; }
else $i+=2;
}
else if ( ($oc & 0xE0) == 0xC0 ) // 2byte
{
if ($i+2 >= $s_len) { $cnt = ($s_len-$i)%2; break; }
else $i++;
}
else // 1byte
$cnt = 0;
}
if ($cnt)
$s = substr($s, 0, $s_len - $cnt);
}
else // EUC-KR, 마지막 글자 깨짐 처리
{
for ($i=0; $i<$s_len; $i++) {
$oc = ord($s[$i]);
if ( $oc > 0x7F )
{
if ($i+2 >= $s_len ) { $cnt = ($s_len-$i)%2; break; }
else $i++;
}
else
$cnt = 0;
}
if ($cnt)
$s = substr($s, 0, $s_len - $cnt);
}
if (strlen($s) >= strlen($str))
$suffix = "";
return $s . $suffix;
}
제가 이쪽분야로는 워낙 지식이 짧은 관계로, 첨부된 그림파일 정도의 테스트를 해보고 올립니다.
고수님들께서 한번 검토해보시고 오류가 있으면 댓글을 가차없이 달아주시기 바랍니다. ^^;
4바이트는 사용되는 일이 거의 없다라고 하던데, 그냥 넣었습니다. (ㅡ.ㅡ;)a
그리고, 중간문자가 깨질 수 있는 상황에 대해서는 고려하지 않았습니다.
참고로, 그림의 문자들은... 다른나라 글자하고는 별로 친하지 않은 관계로 무슨 내용인지는 모릅니다. ㅡ.ㅡ;
function cut_str($str, $len, $suffix="…")
{
global $g4;
$s = substr($str, 0, $len);
$cnt = 0; // 마지막 글자에서 잘린 후 남겨진 바이트 수
$s_len = strlen($s);
// UTF-8 마지막 글자 깨짐 처리
if (strtoupper($g4['charset']) == 'UTF-8') {
for ($i=0; $i<$s_len; $i++) {
$oc = ord($s[$i]);
if ( ($oc & 0xF8) == 0xF0 ) // 4byte
{
if ($i+4 >= $s_len) { $cnt = ($s_len-$i)%4; break; }
else $i+=3;
}
else if ( ($oc & 0xF0) == 0xE0 ) // 3byte
{
if ($i+3 >= $s_len) { $cnt = ($s_len-$i)%3; break; }
else $i+=2;
}
else if ( ($oc & 0xE0) == 0xC0 ) // 2byte
{
if ($i+2 >= $s_len) { $cnt = ($s_len-$i)%2; break; }
else $i++;
}
else // 1byte
$cnt = 0;
}
if ($cnt)
$s = substr($s, 0, $s_len - $cnt);
}
else // EUC-KR, 마지막 글자 깨짐 처리
{
for ($i=0; $i<$s_len; $i++) {
$oc = ord($s[$i]);
if ( $oc > 0x7F )
{
if ($i+2 >= $s_len ) { $cnt = ($s_len-$i)%2; break; }
else $i++;
}
else
$cnt = 0;
}
if ($cnt)
$s = substr($s, 0, $s_len - $cnt);
}
if (strlen($s) >= strlen($str))
$suffix = "";
return $s . $suffix;
}
추천0
관련링크
댓글목록 0
등록된 댓글이 없습니다.