[제나플러스] 일본어 글자 자르기 주의 shift_jis > 팁앤테크

뒤로가기 팁앤테크

[제나플러스] 일본어 글자 자르기 주의 shift_jis

페이지 정보

작성자 제로 작성일 09-08-07 05:00 조회 43,479 댓글 0

본문

int count_Shift_JIS(const unsigned char *string)
{
    int len = 0;

    while(*string){
        if(*string < 0x1f || *string == 0x7f){
            ;// 制御文字
        }else if((0x81 <= *string && *string <= 0x9F) || (0xE0 <= *string && *string <= 0xFC)){
            // 2バイト文字
            ++string;
            if((0x40 <= *string && *string <= 0x7E) || (0x80 <= *string && *string <= 0xFC))
                ++len;
            else
                break;              // 不明な文字
        }else{
            // 1バイト文字
            if(0x80 < *string)
                ;// 半角カナ
            ++len;
        }
        ++string;
    }

    return len;
}

Shift_JISの場合，一部のプログラム（perlなど）でダメ文字問題が発生することがあります．これは，2バイト文字の2バイト目の部分に0x5Cが使われていることに原因があります．
Shift_JISでは，2バイト目に0x40-0x7Eと0x80-0xFCが許可されています．しかし，この中の0x5Cはいわゆるエスケープ文字(\)を表しています．このエスケープ文字は次のバイトと組み合わせて解釈される文字です（2バイトを1バイトとして解釈するわけです）．そのため，本来文字として正しいはずの1バイト目と2バイト目の組み合わせがずれてしまい， 1バイト目と次の文字の1バイト目（本来の2バイト目0x5Cが消えてしまう），次の文字の2バイト目とさらに次の1バイト目と順にずれてしまいます．
（本来，プログラム側が文字コードを認識して動作すべきだとは思いますが，）このような文字が来る場合，0x5C 0x5Cの組み合わせは0x5Cとして解釈されることを利用しあらかじめ0x5Cを追加しておくことが必要になります．
例えば，"予定表"の場合，1文字目と3文字目はダメ文字です．そのため，"予\定表\"のようにダメ文字の後に問題のエスケープ文字(0x5C)を追加することで正しく表示することができます．

ダメ文字リスト：―ソЫⅨ噂浬欺圭構蚕十申曾箪貼能表暴予禄兔喀媾彌拿杤歃濬畚秉綵臀藹觸軆鐔饅鷭偆砡
良く使われてしまうダメ文字は"ソ，十，能，表，予"あたりでしょうか．

댓글목록 0

등록된 댓글이 없습니다.

전체 829건 23 페이지

게시물 검색