文字化けについて

テツ · #1

以前お世話になりましたテツです。
今回は文字化けについてお聞きしたいと思います。

環境はBorland Bcc5.5になります。

今回プログラムを作成していて、2バイト文字が含まれる場合文字化けすることがわかりました。。。orz
ただ、文字化けしない文字もあり、どうしてなのかと思いました。

そこで、2バイト文字が含まれる文字列が渡された場合、英大文字のみを小文字にして2バイト文字はそのままに
したいと思っています。

処理的にはwhileの中で判断文を入れて2バイト文字ならtolowerをかけないで飛ばす的な感じなんでしょうか？

よろしくお願いいたします。

#include <stdio.h>
#include <ctype.h>

void StrToSmall(const char *conversionStr, char *convertedStr)
{
    while (*conversionStr) {
        *(convertedStr++) = tolower(*conversionStr++);
    }
    *convertedStr = '\0';
}

int main(void) 
{
    char    conversionStr[/url] = "HEllプログラムWORld";        // 元の文字列
    char    convertedStr[256];                                // 変換後の文字列をセット
    
    StrToSmall(conversionStr, convertedStr);
    
    printf("変換前 : %s\n", conversionStr);
    printf("変換後 : %s\n", convertedStr);
    
    return 0;
}

たかぎ · #2

二つの問題があります。

1. tolowerには0～UCHAR_MAXまたはEOFを渡さなければなりません。char型が符号付きになっていませんか？

2. シフトJISの２バイト目には、'A'～'Z'に相当するコードが含まれます。

テツ · #3

＞1. tolowerには 0～UCHAR_MAXまたはEOFを渡さなければなりません。char型が符号付きになっていませんか？
これは型をunsignedにしなくてはならないということでしょうか？

検討違いだったらすみません。

たかぎ · #4

> これは型をunsignedにしなくてはならないということでしょうか？

方法はいくつかあるでしょうが、まあそういうことだと思って大丈夫です。

テツ · #5

取りあえず修正してみました。

#include <stdio.h>
#include <ctype.h>

#define IS_ZEN(c) ((c & 0xFF) >= 0x81 && (c & 0xFF) <= 0x9F || (c & 0xFF) >= 0xE0 && (c & 0xFF) <= 0xFC)

void StrToSmall(unsigned const char *conversionStr, unsigned char *convertedStr)
{
    while (*conversionStr) {
        if (IS_ZEN(*conversionStr)) {
            *(convertedStr++) = *(conversionStr++);
        }
        *(convertedStr++) = tolower(*conversionStr++);
    }
    *convertedStr = '\0';
}

int main(void) 
{
    unsigned char    conversionStr[/url] = "HEllプログラムWORld";        // 元の文字列
    unsigned char    convertedStr[256];                             // 変換後の文字列をセット
    
    StrToSmall(conversionStr, convertedStr);
    
    printf("変換前 : %s\n", conversionStr);
    printf("変換後 : %s\n", convertedStr);
    
    return 0;
}

ただこれだと変換後がhellプロバラムworldになってしまいます。

何処が悪いのでしょうか？

たかぎ · #6

下記の処理がうまくできていないようです。

2. シフトJISの[color=red>２バイト目[/color]には、'A'～'Z'に相当するコードが含まれます。

テツ · #7

う～ん。。。2バイト目には'A'～'Z'ですか。

何かもう少しヒントをいただけないでしょうか？

詰まってしまいました。。。orz

ideyan · #8

while (*conversionStr) {
    if (IS_ZEN(*conversionStr)) {
        *(convertedStr++) = *(conversionStr++);
    }
    *(convertedStr++) = tolower(*conversionStr++);
}

このコードだと、2バイト文字だったときはifの文が実行されて
1バイト目はそのままコピーされますよね？
でも、その時2バイト目はどうなるか考えてみてください。

そのままコピーされる文字もありますが
2バイト目のコードが'A'～'Z'に相当してしまった場合、
なにかまずいことが起こるような気がしませんか？

テツ · #9

>なにかまずいことが起こるような気がしませんか？
これが文字化けの原因ということでしょうか？
ということは、

if (IS_ZEN(*conversionStr)) {
        *(convertedStr++) = *(conversionStr++);
        if (0x41～0x5aの場合)
           conversionStrのアドレスを進める
    }

というような理解で大丈夫なんでしょうか？

ideyan · #10

えーと、先に一つ確認しておきたいことがあるんですが。
2バイト文字はchar配列の要素を2個使用していることは理解していますか？

テツ · #11

その辺は何となくそうなのかなぁくらいです。。。orz
う～ん。やはり理解不足みたいです。
すみません(T_T)

ideyan · #12

先ほどのプログラムは

while (*conversionStr) {
    if (IS_ZEN(*conversionStr)) { /*ここで1バイト目をみて判断*/
        /*1バイト目をコピー*/
        *(convertedStr++) = *(conversionStr++);
    }
    /* 1バイト文字の時と、2バイト文字の2バイト目はここでコピー */
    *(convertedStr++) = tolower(*conversionStr++);
}

となっています。

ですが、このままだと2バイト目にまでtolowerが実行されています。
2バイト目がA～Zのコードに該当した場合、小文字のコードに変換されて
グ→バのように文字が変わってしまうわけです。

今回、2バイト文字はそのままにするわけですから
2バイト文字だった場合→問答無用で2バイト分コピー
そうでない場合→tolowerの戻り値をコピー
と言った風にコードを書く必要があります。

テツ · #13

何度もすみません。
以下のようにしてみましたが駄目でした。
このようにしては何処が駄目なのでしょうか？

void StrToSmall(const char *conversionStr, char *convertedStr)
{
    while (*conversionStr) {
        if (IS_ZEN(*conversionStr)) {
            *(convertedStr++) = *(conversionStr++);
            *(convertedStr++) = *(conversionStr++);        // 2バイト目をコピーのつもりです
        }
        *(convertedStr++) = tolower(*conversionStr++);
    }
    *convertedStr = '\0';
}

ideyan · #14

おぉ、大分形になってきましたね＾＾

if (IS_ZEN(*conversionStr)) {
    /*2バイト文字用の処理*/
        *(convertedStr++) = *(conversionStr++);
        *(convertedStr++) = *(conversionStr++);
　　　　/*ここで処理終了なのに*/
}
/*ここで余計な処理が行われる*/
/*1バイト文字用の処理*/
*(convertedStr++) = tolower(*conversionStr++);

こんな感じで、2バイト文字の時も
1バイト文字の処理がされてしまっているのが原因かと思いますよ。
なので、ifじゃなくif-elseとして処理をわけるのがいいかと思います。

テツ · #15

ideyanさん
遅くまで付き合っていただきありがとうございました。
無事希望通りの動きになりました！
本当にありがとうございます。

たかぎさんにもいろいろアドバイスをしていただきありがとうございました。
簡単ですが、この場を借りてお礼とさせていただきます。

本当にありがとうございました。

		4月 2026
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

文字化けについて

文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて

Re:文字化けについて