テキストファイルのエンコード判定の旅

アバター
Ketty
記事: 103
登録日時: 11年前

テキストファイルのエンコード判定の旅

投稿記事 by Ketty » 11年前

質問掲示板に書こうかと思ったけど、
どちらかというと、つぶやきとか備忘録に近いので、ここに書いておきます。

テキストファイルのエンコード判定を、
ええ感じに(ラクに、しかし、それなりな精度で)、実現してみたいと思い、
数ヶ月ほど模索していた次第です。

結局、自力で実装するのは早々にあきらめて、使えそうなライブラリを探す旅をしていました。
で、IMultiLanguageとかいうやつが敷居が低そうだったので使ってみました。
(COMだかIEの機能だか、そういうやつだそうです。まぁ、COMとか知らんのですが・・・)

↓実行して表示されるウィンドウにファイルをドロップするとあら不思議、エンコード形式が表示される(素敵度☆☆)
► スポイラーを表示
これゲームに使えそうだなぁ、と思ったのもつかの間。
CP932(Shift_Jis)なのに、US-ASCIIとか意味のわからんエンコードと勘違いするケースがあることが分かりますた(-_- )
さらに、UnicodeにいたってはBOMありじゃないと判定不能ですた。

いずれも、IMultiLanguageの精度の問題です。
なによりも致命的なのは、それなりにファイルに中身(文字列)がつまってないとちゃんと判定できないってことです。

そこで疑問がわきます。
世のテキストエディタ(サクラとか秀丸とか)は、いったいどうやってんのだろう。
あいつら、数文字しか書いてないテキストでも、ピッってドロップするだけで、いかにも正しいエンコードを超高速で表示してくれるんだけど・・・。
評価時の重みづけとかがすごく練られてるんだろうか・・・。

旅を続けます((((( -_-)

コメントはまだありません。