Unicode は知られているすべての文字のリストです。 つまり、発声されるかどうかにかかわらず、すべての言語の文字が含まれます。 Unicode のリストには、文字ごとに一意のインデックスがあります。 最初の 128 文字は、ASCII 文字です。
データが格納される、または計算されるときに、Unicode リストは文字を表すために使用されません。 代わりに、いわゆる文字エンコード (文字セット) が、コンピュータ上およびファイル内での文字の表現方法を定義します。 世界中では、さまざまな文字セットが使用されています。
すべての Unicode 文字をカバーする文字エンコードの中でよく使用されるものは次の 2 つです。
Windows 用のアプリケーションを開発するときは、Unicode (UTF-16) 文字表現またはマルチバイト文字セット (MBCS) 文字表現を選択できます。 MBCS 表現は、地理的な地域に依存するコードページ エンコードを表します (日本の場合は Shift-JIS、アメリカおよび多くのヨーロッパ諸国の場合は Latin-1 など)。 すべてのデータはアプリケーションに対して選択されている同じ文字列表現で表示される必要があるので、これはすべての GUI 要素に影響します。