世界的な絵文字普及、UTF-8普及やUTF-16での4バイト文字扱い改善となるか

2017年11月15日 08:05

印刷

記事提供元:スラド

 世界的な絵文字の普及によって、UTF-8の普及やUTF-16における4バイト文字の扱いが改善されつつあるという(絵文字がある種のUnicodeバグを世界から一掃しつつある件について)。

 そもそも使用する文字が少ない欧米圏では、いわゆる「マルチバイト文字」の扱いに消極的、もしくは理解が足りないという歴史的な問題が存在した。そのためさまざまな文字エンコーディングが開発され、その後世界中のすべての文字を統一したエンコーディングで扱おうとする動きが出たものの、その結果欠点の多いUTF-16というエンコーディングを採用するプログラムや環境が登場したという。UTF-16では1文字を2バイトもしくは4バイトで表現するが、使用頻度の高い文字の多くは2バイトで表現されるため、「1文字=2バイト」を前提に処理を行ってしまうプログラムがあるという。

 いっぽう、絵文字は基本的に1文字に4バイトが必要となる。そのため、「1文字=2バイト」を前提としたプログラムでは上手く処理できない。そのため、絵文字の普及によって適切に4バイトの文字を扱えないプログラムが改修されたり、 元々可変長が前提のUTF-8がより普及するのではないかとされている。

 スラドのコメントを読む | ITセクション | バグ | IT

 関連ストーリー:
開発中の PHP 6、UTF-16 化に失敗。開発ブランチも 5.3 系に巻き戻し 2010年03月19日
Webで利用される文字コード、UTF-8がもうすぐ50%を突破 2010年01月31日
PHPマルチバイト文字列モジュールにライセンス問題 2003年06月22日
UNICODEをどう組み込む 2001年10月28日
Windows 10のInsider PreviewでシステムロケールをUTF-8にするオプションが追加される 2017年11月14日

※この記事はスラドから提供を受けて配信しています。

関連記事