[제나플러스] 일본어 글자 자르기 주의 shift_jis > 팁앤테크

본문 바로가기
사이트 내 전체검색

팁앤테크

[제나플러스] 일본어 글자 자르기 주의 shift_jis

페이지 정보

profile_image
작성자 제로
댓글 0건 조회 42,692회 작성일 09-08-07 05:00

본문

int count_Shift_JIS(const unsigned char *string)
{
int len = 0;

while(*string){
if(*string < 0x1f || *string == 0x7f){
;// 制御文字
}else if((0x81 <= *string && *string <= 0x9F) || (0xE0 <= *string && *string <= 0xFC)){
// 2バイト文字
++string;
if((0x40 <= *string && *string <= 0x7E) || (0x80 <= *string && *string <= 0xFC))
++len;
else
break; // 不明な文字
}else{
// 1バイト文字
if(0x80 < *string)
;// 半角カナ
++len;
}
++string;
}

return len;
}




Shift_JISの場合,一部のプログラム(perlなど)でダメ文字問題が発生することがあります. これは,2バイト文字の2バイト目の部分に0x5Cが使われていることに原因があります.
Shift_JISでは,2バイト目に0x40-0x7Eと0x80-0xFCが許可されています. しかし,この中の0x5Cはいわゆるエスケープ文字(\)を表しています. このエスケープ文字は次のバイトと組み合わせて解釈される文字です(2バイトを1バイトとして解釈するわけです). そのため,本来文字として正しいはずの1バイト目と2バイト目の組み合わせがずれてしまい, 1バイト目と次の文字の1バイト目(本来の2バイト目0x5Cが消えてしまう), 次の文字の2バイト目とさらに次の1バイト目と順にずれてしまいます.
(本来,プログラム側が文字コードを認識して動作すべきだとは思いますが,) このような文字が来る場合,0x5C 0x5Cの組み合わせは0x5Cとして解釈されることを利用し あらかじめ0x5Cを追加しておくことが必要になります.
例えば,""の場合,1文字目と3文字目はダメ文字です. そのため,"予\定表\"のようにダメ文字の後に問題のエスケープ文字(0x5C)を追加することで正しく表示することができます.

ダメ文字リスト:―ソЫⅨ噂浬欺圭構蚕十申曾箪貼能表暴予禄兔喀媾彌拿杤歃濬畚秉綵臀藹觸軆鐔饅鷭偆砡
良く使われてしまうダメ文字は"ソ,十,能,表,予"あたりでしょうか.


댓글목록

등록된 댓글이 없습니다.

Total 779건 22 페이지
  • RSS
팁앤테크 목록
번호 제목 글쓴이 조회 날짜
254 제로 55521 09-29
253 제로 40750 09-25
252 제로 74954 09-21
251 제로 103831 09-19
250 제로 44973 09-19
249 제로 37182 09-17
248 제로 40093 09-15
247 제로 47766 09-08
246 제로 45080 09-06
245 제로 39534 09-03
244 제로 62572 09-01
243 제로 45960 08-27
242 제로 51354 08-21
241 제로 41396 08-20
240 제로 40403 08-20
239 제로 38285 08-18
238 제로 121705 08-12
237 제로 51111 08-07
236 제로 49330 08-07
235 제로 43973 08-07
열람중 제로 42693 08-07
233 제로 36386 08-07
232 제로 61124 08-06
231 제로 42806 07-31
230 제로 50047 07-27

검색

회원로그인

회원가입

사이트 정보

株式会社YHPLUS / 대표 : ZERO
〒140-0011 東京都品川区東大井2-5-9-203
050-5470-4714
오픈카카오톡 (YHPLUS) :
https://open.kakao.com/o/slfDj15d

접속자집계

오늘
4,924
어제
25,212
최대
431,155
전체
6,730,176
Copyright (c) 株式会社YHPLUS. All rights reserved.