機種依存文字の影響範囲

投稿者:制作部

2010/08/03 13:27

この記事は約2分で読むことができます。

先日、弊社の制作物ではないWeb上でコンマ区切り(いわゆるCSV)データを蓄積するメール送信プログラムをテストする事があり、蓄積されたデータを確認しようとエクセルで開くとファイル内全てで文字化けが発生していました。

文字エンコードをUTF-8でセットしたファイルをエクセルがShift_JISで読み込んでしまった為に発生した事象でした。

この後、UTF-8を認識出来るテキストエディターで確認したところ正常に表示されたのですが、このように特殊なテキストエディターで確認する事でしか文字化けを回避できないのは、ローカルPCでの作業を想定するようなケースだと基本NGになります。

今回、CSVファイルをエクセルで活用するという事が条件だったため、最終的にはファイル自体をShift_JISにコンバートしました。

 

この時に気をつけないといけない事があって、UTF-8からShift_JISへの変換の場合、コード体系上の問題がありどうしても表示できない文字が出てきます。

それが、機種依存文字と呼ばれるものなのですが、例えば「髙」や「﨑」などが代表的な漢字です。

この漢字をお名前に持つ方々は、PCで携帯電話宛にメールを送った際に自分の名前が「??」(ハテナ)となったご経験が少なからずあるかと思います。

扱う範囲として、PCだけはなく携帯電話までを考えると元々旧字体がライブラリにないハードウェアも存在する中での折衷案は何処にあるかを考えねばなりません。

 

比較的、多く使われる旧字体に関しては、「髙⇒高」や「﨑⇒崎」のようにプログラム上の置換処理で対応するケースが一般的です。

これらの漢字をお名前に持つ方々は、特にメールのやりとりで文字化けに遭遇しているので、意識して自ら文字化けを起こさない文字に補正をしていらっしゃるのではないでしょうか。

 

・PC間でのメール(特にWebメール)
・PCから携帯電話へのメール
・Webを介したデータやり取りにおけるローカルPCの取扱い
・古いCMSツール(EUCにしか対応していないケース)

 

等々、他にもあるかもしれません。

最近作ったものはほとんど問題ありませんが、5年以上前に構築したようなシステムの場合は文字化けに注意が必要です。

今後、ハードウェアの発展と共に各種ライブラリも強化されていって不便なく使えるようになると思いますが、いつの時代もこの機種依存文字や文字化けに技術者は頭をひねる必要がありそうです。

 

【編集担当:紀井】

Webサイト制作