全角文字半角文字文字コード

全角と半角の基本的な違いは「１文字を表示するのにどのような表示スペースを用いるのか？」ということです。

Windows の場合は、日本語入力モードをONにして、文字を打ち込んで、変換が確定してない下線がついている状態で、[F8]キーで半角文字、[F9]キーで全角文字に変換されます。

以下に全角文字と半角文字の例を示します。上から四行並びで、次のような順になっています。

全角文字と半角文字の違いは「ちょっと見た目が違うだけ」のように思ってしまいますが、実は全くの別の代物です。簡単に言いますと文字コードが違います。文字コードとは文字に割り当てられた番号（数値）のことで、半角文字と全角文字ではその割り振られている番号が全く違います。文字コードが違うので「全角文字と半角文字は、形は似てるけど別の文字（別の情報）」を表していることになります。本来なら文字の幅は「フォント」と呼ばれる「文字コードと文字の形の対応」によって決定されるべきものであります。しかし様々な経緯があって、文字コードの違いがなんとなく見分けられるように、「1バイト文字は半角領域」「2バイト文字は全角領域」で表示するという慣習ができあがってしまいました。

本来ならば文字コードの定義は各文字に対して1通りで、文字の幅や形に関してはフォントでのみ対応することが理想的です。しかし、歴史的に複雑な経緯があって、現状のような体系なっているわけです。誤解を恐れずに簡単にまとめると、次のようになります。

とにかく「全角文字」と「半角文字」の違いを知っておき、適切に使い分けることが重要です。特に、英数字や記号は全角文字と半角文字の両方存在しますので注意が必要です。

コンピュータでの文字の内部表現（文字コード）

目次へ↑

現在のコンピュータでは情報は全て2進法の数値によって表されています。あらゆる情報が数値で管理されているということです。文字情報に関しては、各文字に対して番号を割り振って管理していると思ってください。各文字に付けられた番号のことを文字コードと呼びます。この文字コードによって、コンピュータで文字を自在に扱ったり管理したりすることができるようになります。

文字コードにより、各文字は大雑把に1バイト文字と2バイト文字に分類されます。 1バイトは8ビット（2進法8桁）のことなので、2⁸ = 256種類の情報（文字）を表すことができます。また、2バイトは16ビットなので、2¹⁶ = 65,536種類の情報を表すことができます。英数字だけならば1バイトで十分なのですが、日本語のひらがな、カタカナ、漢字を合わせると、1バイトでは足りませんので2バイトで番号を割り振っています。（コード体系によって3バイト、4バイトを使うこともあります。ここでの分類は厳密なものではありません。）

2バイト文字は、1バイト文字2文字の幅の正方形、で表示させることが多いので、1バイト文字を半角文字、2バイト文字を全角文字と呼ぶことがあります。とにかく、全角文字と半角文字で文字コードが違うということは知っておいてください。文字コードが違うので、見た目は似ていても違った文字（情報）を表しています。

コンピュータの黎明期、文字コードには各自好き勝手な割り振りが行われていました。しかし、多くのコンピュータが連携して作業を実行するには統一された文字コードが必要です。当初は、計算を実行するCPU、データを記憶するメモリ、データを転送するバス、が貧弱で文字コードに多くのビットを割り当てるわけにはいきませんでした。そのため、取り扱う文字の数は極力少なくするようにしていました。現在では多くのビットを文字コードに割り当てることができるようになり、世界中のコンピュータがネットワークで繋がるようになりました。そして、世界中の文字コードを統一する必要性が高まってきました。文字コードを統一する際、それまで使っていた文字コードが使えなくなると不便だったり不利益を被ったりします。そのため、以下で説明するような複雑な改訂の歴史を辿ってしまうことになったわけです。

ビットとバイト

目次へ↑

2進数の1桁のことを1ビット（bit：binary digit の略）と呼びます。 2進数を数桁をまとめたものを1バイト（byte）と呼びます。 byte の元々の意味は「噛む、食いつく」です。 1バイトはコンピュータが一回で処理するデータ量を表す基本単位でした。コンピュータの黎明期では1バイトが6ビットだったり7ビットだったりしていましたが、そのうち8ビットが主流になりました。その後、処理の基本単位が16ビットや32ビットに拡張されていきましたが、8ビットで1バイトというのが世界中に広まってしまったので、現在では8ビット1バイトになっています。 8ビットで1バイトが正式に決められたのは2008年になります。正式に決められるまでに時間がかかったので、誤解を避けるために8ビットのことを1バイトという言い方を避けて、オクテット（octet）という言い方をすることがあります。

2⁴ = 16 の関係があるので、2進数の4桁は16進数の1桁で表現できます。 1バイト（8ビット）の2進数は16進数2桁で表示できます。 2進数と16進数の変換は以下の対応表を使って置き換えるだけで簡単に実行できます。

10進数	2進数	16進数
0	0000	0
1	0001	1
2	0010	2
3	0011	3
4	0100	4
5	0101	5
6	0110	6
7	0111	7
8	1000	8
9	1001	9
10	1010	A
11	1011	B
12	1100	C
13	1101	D
14	1110	E
15	1111	F

ASCIIコード

目次へ↑

世界標準になってる代表的な文字コードはASCII文字コードです。 ASCII（アスキー）は American Standard Code for Information Interchange の略です。アメリカで発達して世界標準の文字コードになりました。（ここ）で各文字に対応する数値が分かります。

コンピュータは元々、電子計算機と言いまして、計算することが目的で文字を扱う必要はありませんでした。プログラムは2進数で書かれたマシン語（機械語）で記述され、文字とは無縁の存在だったのです。その後、プログラミング言語が人間に理解しやすいアセンブラや高級言語に発達していく過程で文字情報を扱う必要がでてきました。このような経緯があったため、文字コードは個々のコンピュータによって独自の物を使っていたわけです。しかし、そのままでは他のコンピュータと連携（通信）し、様々な情報を処理することが難しくなるため、文字コードを統一する必要が出てきました。そこで、1963年に米国の国家規格協会（ANSI）によって7bit の文字コード ASA X3.4 （現 ANSI INCITS 4）が制定されました。このコードのことを通称「旧ASCIIコード」と呼びます。

世界中でコンピュータの開発が進められ、様々な国の文字を扱う必要が出てきます。 1967年に国際標準化機構（ISO）によって ISO R 646 が制定されました。当初は欧州提案の 6bit コードと、米国提案の 7bit コードの両方がありました。 1973年に正式な規格の ISO 646 になる際に 6bit 案は廃止されました。こちらの ECMA-1 が当時の 6bit 案に多少の修正を加えてヨーロッパで制定されたものになります。また、後述しますが、ISO 646 が正式な規格になるに際し、国ごとに変更可能な12文字が決められました。この ISO 646 を元に米国で制定された文字コードを「ASCIIコード」と呼びます。また、ISO 646 を元に日本では1969年に日本工業規格（JIS）によって JIS C 6220（現 JIS X 0201）が制定されました。

例えば大文字の「A」のアスキーコードは2進数で「100 0001」です。このコードを16進数に変換すると「41」になります。また、（4×16+1 = 64+1 = 65）の変換計算から10進数では「65」になることが分かります。

以下、アスキーコードの対応表です。 7ビットの文字コードです。

`A`	8ビット(1バイト)
上位4ビット	下位4ビット
2進数	0	1	0	0	0	0	0	1
16進数	4	1
10進数	65

n	8ビット(1バイト)
上位4ビット	下位4ビット
2進数	0	1	1	0	1	1	1	0
16進数	6	E
10進数	110

2進	上位3bit	000_	001_	010_	011_	100_	101_	110_	111_
下位4bit	16進	0_	1_	2_	3_	4_	5_	6_	7_
_0000	_0	NUL	DLE	SP	`0`	`@`	`P`	`	`p`
_0001	_1	SOH	DC1	`!`	`1`	`A`	`Q`	`a`	`q`
_0010	_2	STX	DC2	`"`	`2`	`B`	`R`	`b`	`r`
_0011	_3	ETX	DC3	`#`	`3`	`C`	`S`	`c`	`s`
_0100	_4	EOT	DC4	`$`	`4`	`D`	`T`	`d`	`t`
_0101	_5	ENQ	NAK	`%`	`5`	`E`	`U`	`e`	`u`
_0110	_6	ACK	SYN	`&`	`6`	`F`	`V`	`f`	`v`
_0111	_7	BEL	ETB	`'`	`7`	`G`	`W`	`g`	`w`
_1000	_8	BS	CAN	`(`	`8`	`H`	`X`	`h`	`x`
_1001	_9	HT	EM	`)`	`9`	`I`	`Y`	`i`	`y`
_1010	_A	LF	SUB	`*`	`:`	`J`	`Z`	`j`	`z`
_1011	_B	VT	ESC	`+`	`;`	`K`	`[`	`k`	`{`
_1100	_C	FF	FS	`,`	`<`	`L`	`\`	`l`	`\|`
_1101	_D	CR	GS	`-`	`=`	`M`	`]`	`m`	`}`
_1110	_E	SO	RS	`.`	`>`	`N`	`^`	`n`	`~`
_1111	_F	SI	US	`/`	`?`	`O`	`_`	`o`	DEL

黒や緑の図形文字は、画面表示や印刷の際に実際に形として現れる文字のことです。緑のコードは ISO 646 という国際規格で、国ごとに割り当ての変更が認められた12文字です。 16進で「5C」の「\」バックスラッシュは、日本では「¥」円マークに割り当てられました。 16進で「7E」の「~」チルダは、日本では「‾」オーバーライン（上線）に割り当てられました。以下は様々な国の割り当てを表にしたものです。

国	規格＼16進コード	23	24	40	5B	5C	5D	5E	60	7B	7C	7D	7E
アメリカ	US-ASCII	`#`	`$`	`@`	`[`	`\`	`]`	`^`	`	`{`	`\|`	`}`	`~`
日本	JIS C 6220-1969	`#`	`$`	`@`	`[`	`¥`	`]`	`^`	`	`{`	`\|`	`}`	`‾`
韓国	KS C 5636-1989	`#`	`$`	`@`	`[`	`₩`	`]`	`^`	`	`{`	`\|`	`}`	`‾`
中国	GB/T 1988-80	`#`	`¥`	`@`	`[`	`\`	`]`	`^`	`	`{`	`\|`	`}`	`‾`
台湾	CNS 5205-1996	`#`	`$`	`@`	`[`	`\`	`]`	`^`	`	`{`	`\|`	`}`	`‾`
イギリス	BS 4730	`£`	`$`	`@`	`[`	`\`	`]`	`^`	`	`{`	`\|`	`}`	`~`
フランス	NF Z 62010_1982	`£`	`$`	`à`	`[`	`°`	`ç`	`§`	`µ`	`é`	`ù`	`è`	`¨`
ドイツ	DIN 66003	`#`	`$`	`§`	`Ä`	`Ö`	`Ü`	`^`	`	`ä`	`ö`	`ü`	`ß`
スペイン	IBM Spanish	`#`	`$`	`·`	`¡`	`Ñ`	`Ç`	`¿`	`	`´`	`ñ`	`ç`	`¨`

赤の制御文字（control character）とは、ディスプレイやプリンタや通信装置などの周辺機器に対して、特別な動作（制御）をさせる際に用いる特殊な文字のことです。当時のコンピュータは電動式タイプライターのテレタイプ端末（TTY）と呼ばれる端末でメインフレームコンピュータに電信で命令を送ったり、紙テープにパンチ穴を開けてプログラムを記録したりしていました。その際に使われていた制御コードが元になっています。制御コードというものは、古くは電信のモールス符号の頃から存在する概念です。

以下に、制御コードの一覧表を示します。「CS」の項目は「キャレット記法」というキャレット「^」と他の文字を組み合わせて書かれた記法です。表示することができない制御文字を表示できる文字で表したものです。 TTY端末のキーボードから直接、制御文字を打ち込む際に、例えば「^G」は [Ctrl] で表されるコントロールキーを押しながら[G]キーを打ち込むことを表しています。「C言語」の項目はC言語のソースコードで制御コードを表す際に使われる記法です。

16進コード	略号	CS	C言語	名称	日本語名称	備考
00	NUL	`^@`	`\0`	NULL	空文字	元々は、紙テープの末端のデータが書き込まれていない箇所をコンピュータが読み飛ばすために、「何もしない」コードとして定められたものだった。後に、テレタイプ端末がキャリッジ・リターンや行送りを物理的にするための時間を稼ぐために入れられるようにもなった。現在では、C言語などで文字列の終端を表すのに用いられる。
01	SOH	`^A`		Start of Heading	ヘッディング開始	通信伝文中のヘッダ開始を表す。
02	STX	`^B`		Start of Text	テキスト開始	通信伝文中のテキスト部分の開始を表す。
03	ETX	`^C`		End of Text	テキスト終了	通信伝聞のテキスト部分の終了、Ctrl-Cはプログラムやプロセスに割り込む際にも使われる。
04	EOT	`^D`		End of Transmission	伝送終了	データ送信側がデータ送信終了時にデータ受信先にEOTを送る。
05	ENQ	`^E`		Enquiry	問い合わせ	データ送信側がデータ送信しようというときに、データ受信側にデータに先立ってENQを送る。データ受信先は、データ受信できる状態であればデータ送信側にACKを送り、データ受信できない状態であればNAKを送る。データ送信側はACKを受信した場合にデータを送り、NAKを受信した場合はデータ送信を断念したり時間を置いて再度ENQ送信するなどの処理を行なう。
06	ACK	`^F`		Acknowledge	肯定応答	受信したデータにCRCなどの異常がない場合や、ENQを受信後にデータ受信ができる状態であれば、送信側にACKを送る。
07	BEL	`^G`	`\a`	Bell	ベル	元々は通信相手の端末のベルを鳴らすのに使われていた。現在では物理的な鐘ではなくビープ音を鳴らす。端末エミュレータでは音を鳴らさずにウィンドウを点滅させるものもある。
08	BS	`^H`	`\b`	Backspase	一文字後退	元々はカーソルを手前（左）に移動させ、重ね打ちをしてアクセント符号つきの文字を打ち出すために使用されていた。現在では、カーソルを手前（左）に移動させてそこの文字を削除するために用いられる。
09	HT	`^I`	`\t`	Horizontal Tabulation	水平タブ	水平方向のタブ。テキストデータのデータの区切りに使うこともある。
0A	LF	`^J`	`\n`	Line Feed	改行	Line Feedは「行送り」の意味。タイプライターでは、カーソルを桁（水平方向）はそのままで1行下へ移動させる。UNIXでは、LF単独で改行コードとして扱われ、行送りと桁の復帰を行う。MS-DOSやWindowsでは、CRとLFを併用する。
0B	VT	`^K`	`\v`	Virtical Tabulation	垂直タブ	垂直方向のタブ。
0C	FF	`^L`	`\f`	Form Feed	書式送り	プリンタでは、次のページを給紙する。多くのプログラミング言語では空白として扱われ、コードの論理的区分の分け目として使用される。いくつかの端末エミュレータでは、画面をクリアする。プレーンテキストで記述されるRFCでは、ページ分割文字として使用される。
0D	CR	`^M`	`\r`	Carriage Return	行頭復帰	元はカーソルを同じ行の先頭の桁（左端）へ移動させるのに使われた。macOSよりも前のClassic Mac OSでは、CR単独で改行コードとして扱われ、行送りと桁の移動を行う。MS-DOSやWindowsでは、CRとLFを併用する。
0E	SO	`^N`		Shift Out	シフトアウト	別の文字コードセットに遷移する。
0F	SI	`^O`		Shift In	シフトイン	シフトアウトの後で、通常の文字コードセットに戻る。
10	DLE	`^P`		Data Link Escape	伝送制御拡張	バイナリ通信（データそのものに制御文字を含むような通信）であることを表すために使う。DLE自体をバイナリデータに含める場合はDLEを2つ重ねて送信する。データ受信側はDLEが2つ重ねられている場合は、DLEというバイナリデータ（制御文字でなく）を受信したと解釈する。こうしたことは、通常のアプリケーションでは意識しなくてもいいことが多い。しかし、プロトコロルアナライザなどで通信データを表示した場合、DLEが2つ重ねられていることを知らないと、おかしな通信データと誤解しかねない。
11	DC1	`^Q`		Device Control 1	制御装置1	この4つのコードは装置制御のために予約されている。コードの解釈は接続している装置に依存する。主として、DC1とDC2は装置を作動させる目的で、DC3とDC4は装置を休止または停止させる目的で使用される。実際の用法としてはDC1とDC3をソフトウェアフロー制御のために用いるのがデファクト・スタンダードとなっており、その場合、DC1はXON、DC3はXOFFと呼ばれる。テキストデータ受信側はテキスト送信側に、テキスト送信の一時停止を求めるためXON(DC1)を送信し、一時停止を解除するためXOFF(DC3)を送信する。XONを受信したテキストデータ送信側は、XOFFを受信するまでテキストデータの送信を一時停止する。なお、バイナリ通信ではDC1、DC3によるフロー制御は行なわない。バイナリ通信ではDC1、DC3は単なるバイナリデータであり、制御文字と解釈しないからである。
12	DC2	`^R`		Device Control 2	制御装置3
13	DC3	`^S`		Device Control 3	制御装置3
14	DC4	`^T`		Device Control 4	制御装置4
15	NAK	`^U`		Negative Acknowledge	否定応答	受信したデータにCRCなどの異常があった場合や、ENQを受信後にデータ受信ができる状態でないなら送信側にNAKを送る
16	SYN	`^V`		Synchronous Idle	同期信号	キャラクタ同期方式の通信で、同期を取るために使う。
17	ETB	`^W`		End of Transmission Block	伝送ブロック終了	通信電文の1ブロック（一連のまとまりのある複数の伝文）が終了したことを表す。
18	CAN	`^X`		Cancel	取り消し	先行するデータにエラーがある、または、無視してほしいことを示す。
19	EM	`^Y`		End of Medium	記録媒体終端	受信データを記録する媒体（紙や磁気テープなど）が、記録できる範囲の末端まで到達したことを表す。
1A	SUB	`^Z`		Substitute Character	文字置換	本来は、伝送制御文字として、不明瞭な、または、無効な文字を受信したことを表す。しかし、下位レイヤで誤り検出訂正が行われるため、この用途で用いる必要はほぼなく、他の用途で用いられる。テキストファイルのファイル終端（EOF)を表すのによく使われる。
1B	ESC	`^[`		Escape	拡張	キーボードのEscキーを押すとこの文字がシステムに送られる。ソフトウェアのユーザインターフェースでは、画面・メニュー・モードから出るのに用いられる。プリンタや端末などの装置制御プロトコルでは、後に続く文字を特別な解釈をする（エスケープシーケンス）ことを指示するために用いられる。
1C	FS	`^\`		File Separator	ファイル分離	データ構造のフィールドを記録する区切り文字として使われる。階層的な構造の場合、USが最も低いレベル（プレーンテキストのデータアイテム）を分割し、 RS, GS, FSはそれぞれ下のレベルのアイテムからなるグループを分ける。
1D	GS	`^]`		Group Separator	グループ分離
1E	RS	`^^`		Record Separator	レコード分離
1F	US	`^_`		Unit Separator	ユニット分離
7F	DEL	`^?`		Delate	抹消	元々は紙テープで誤って穿孔した箇所の全部のビットの穴をあけて、データを抹消するのに用いられた。現代のコンピュータでは、カーソルのすぐ右の文字を削除するのに使われる。

文字コードを確認する方法

目次へ↑

実際に文字コードがどうなっているのかを確認するには「バイナリエディタ」「バイナリビューア」と呼ばれるソフト（アプリ）を利用します。「テキストエディタ」の中には「バイナリモード」を備えているものがあります。オンラインで利用できるものもあり、とりあえずは、Free Online Hex Editor & Viewer や BinaryViewer on Web 等を利用してみると良いでしょう。

32bitの Windows では、コマンドプロンプトで debug コマンドを使って16進数コードを確認することができます。 64bitの Windows では certutil コマンドを使ってコードを確認できます。コマンドプロンプトで以下のように打ち込めば、original.txt ファイルの16進コードをテキストに変換して hexcode.txt に書きだします。 hexcode.txt を type コマンドやメモ帳などのテキストエディタで確認すると良いでしょう。

それでは制御コードや図形コードを確認してみましょう。メモ帳などのテキストエディタを開いて次のように打ち込んで、

OS	16進コード	略号	備考
Unix 系 OS	0A	LF	Mac OS バージョン10以降
Windows 系	0D OA	CR+LF
Mac 系	0D	CR	Mac OS バージョン9まで

半角カナ

目次へ↑

ASCII コードでは7ビットの領域に文字が定義されています。国際規格 ISO 646 によって、12文字分は各国によって独自の割り当てができるのですが、それだけではとても日本語の文字を表記することができません。そこで、ASCII コードを元に日本独自の文字コードが日本工業規格（JIS）によって制定されました。ここで通称半角カナと呼ばれる文字が登場したわけです。 ASCIIコード文字や半角カナ文字は1バイト（8ビット）以下の文字コードで表現されることが多いので、1バイト文字と呼ばれることがあります。

以下は、1969年に「JIS C 6220」として制定され、1987年に「JIS X 0201」に部門 X の新設により移行された規格です。 JIS の分類では「C：電子機器及び電気機械」「X：情報処理」になります。この規格では 7ビット符号文字集合（通称：7ビットJIS、JIS7）と 8ビット符号文字集合（通称：8ビットJIS、JIS8）の2種類のコード系が制定されました。このコードは、アルファベット（A）、数字（N）、カタカナ（K)、の図形文字で構成されていて、通称「アンク（ANK）コード」と呼ばれます。

7ビット半角カナ

以下は 7ビット符号のコード表です。 2つの7ビットの文字コードを切り替える方式です。 1つ目の表は ISO 646 の規格の日本版で、「ローマ字集合」と呼ばれます。2つめの表は図形文字の部分に半角カナと呼ばれる文字や濁点・半濁点や句読点を割り当てていて、「カタカナ集合」と呼ばれます。空欄部分は未定義で、当時のワープロメーカーなどによって独自の記号を割り当てられている場合がありました。制御コードの「SI」シフトインと「SO」シフトアウトで、2つのコード表を切り替えて文字を扱います。バイト列を解釈するときに SO が現れた後の物は「カタカナ文字」、SI が現れた後の物は「ラテン文字」と解釈します。

2進	上位3bit	000_	001_	010_	011_	100_	101_	110_	111_
下位4bit	16進	0_	1_	2_	3_	4_	5_	6_	7_
_0000	_0	NUL	DLE	SP	`0`	`@`	`P`	`	`p`
_0001	_1	SOH	DC1	`!`	`1`	`A`	`Q`	`a`	`q`
_0010	_2	STX	DC2	`"`	`2`	`B`	`R`	`b`	`r`
_0011	_3	ETX	DC3	`#`	`3`	`C`	`S`	`c`	`s`
_0100	_4	EOT	DC4	`$`	`4`	`D`	`T`	`d`	`t`
_0101	_5	ENQ	NAK	`%`	`5`	`E`	`U`	`e`	`u`
_0110	_6	ACK	SYN	`&`	`6`	`F`	`V`	`f`	`v`
_0111	_7	BEL	ETB	`'`	`7`	`G`	`W`	`g`	`w`
_1000	_8	BS	CAN	`(`	`8`	`H`	`X`	`h`	`x`
_1001	_9	HT	EM	`)`	`9`	`I`	`Y`	`i`	`y`
_1010	_A	LF	SUB	`*`	`:`	`J`	`Z`	`j`	`z`
_1011	_B	VT	ESC	`+`	`;`	`K`	`[`	`k`	`{`
_1100	_C	FF	FS	`,`	`<`	`L`	`¥`	`l`	`\|`
_1101	_D	CR	GS	`-`	`=`	`M`	`]`	`m`	`}`
_1110	_E	SO	RS	`.`	`>`	`N`	`^`	`n`	`‾`
_1111	_E	SI	US	`/`	`?`	`O`	`_`	`o`	DEL

2進	上位3bit	000_	001_	010_	011_	100_	101_	110_	111_
下位4bit	16進	0_	1_	2_	3_	4_	5_	6_	7_
_0000	_0	NUL	DLE	SP	`ｰ`	`ﾀ`	`ﾐ`
_0001	_1	SOH	DC1	`｡`	`ｱ`	`ﾁ`	`ﾑ`
_0010	_2	STX	DC2	`｢`	`ｲ`	`ﾂ`	`ﾒ`
_0011	_3	ETX	DC3	`｣`	`ｳ`	`ﾃ`	`ﾓ`
_0100	_4	EOT	DC4	`､`	`ｴ`	`ﾄ`	`ﾔ`
_0101	_5	ENQ	NAK	`･`	`ｵ`	`ﾅ`	`ﾕ`
_0110	_6	ACK	SYN	`ｦ`	`ｶ`	`ﾆ`	`ﾖ`
_0111	_7	BEL	ETB	`ｧ`	`ｷ`	`ﾇ`	`ﾗ`
_1000	_8	BS	CAN	`ｨ`	`ｸ`	`ﾈ`	`ﾘ`
_1001	_9	HT	EM	`ｩ`	`ｹ`	`ﾉ`	`ﾙ`
_1010	_A	LF	SUB	`ｪ`	`ｺ`	`ﾊ`	`ﾚ`
_1011	_B	VT	ESC	`ｫ`	`ｻ`	`ﾋ`	`ﾛ`
_1100	_C	FF	FS	`ｬ`	`ｼ`	`ﾌ`	`ﾜ`
_1101	_D	CR	GS	`ｭ`	`ｽ`	`ﾍ`	`ﾝ`
_1110	_E	SO	RS	`ｮ`	`ｾ`	`ﾎ`	`ﾞ`
_1111	_F	SI	US	`ｯ`	`ｿ`	`ﾏ`	`ﾟ`		DEL

8ビット半角カナ

以下は 8ビット符号のコード表です。 16進で 00～7F の前半の7ビット部分を「左側集合（ラテン文字集合）」と呼び、16進で 80～FF の後半の7ビット部分を「右側集合（カタカナ集合）」と呼びます。最上位ビットを見れば左側なのか右側なのか判断できます。最上位のビットが 1 なら「カタカナ文字」、最上位のビットが 0 なら「ラテン文字」と判断できます。

2進	上位4bit	0000_	0001_	0010_	0011_	0100_	0101_	0110_	0111_	1000_	1001_	1010_	1011_	1100_	1101_	1110_	1111_
下位4bit	16進	0_	1_	2_	3_	4_	5_	6_	7_	8_	9_	A_	B_	C_	D_	E_	F_
_0000	_0	NUL	DLE	SP	`0`	`@`	`P`	`	`p`				`ｰ`	`ﾀ`	`ﾐ`
_0001	_1	SOH	DC1	`!`	`1`	`A`	`Q`	`a`	`q`			`｡`	`ｱ`	`ﾁ`	`ﾑ`
_0010	_2	STX	DC2	`"`	`2`	`B`	`R`	`b`	`r`			`｢`	`ｲ`	`ﾂ`	`ﾒ`
_0011	_3	ETX	DC3	`#`	`3`	`C`	`S`	`c`	`s`			`｣`	`ｳ`	`ﾃ`	`ﾓ`
_0100	_4	EOT	DC4	`$`	`4`	`D`	`T`	`d`	`t`			`､`	`ｴ`	`ﾄ`	`ﾔ`
_0101	_5	ENQ	NAK	`%`	`5`	`E`	`U`	`e`	`u`			`･`	`ｵ`	`ﾅ`	`ﾕ`
_0110	_6	ACK	SYN	`&`	`6`	`F`	`V`	`f`	`v`			`ｦ`	`ｶ`	`ﾆ`	`ﾖ`
_0111	_7	BEL	ETB	`'`	`7`	`G`	`W`	`g`	`w`			`ｧ`	`ｷ`	`ﾇ`	`ﾗ`
_1000	_8	BS	CAN	`(`	`8`	`H`	`X`	`h`	`x`			`ｨ`	`ｸ`	`ﾈ`	`ﾘ`
_1001	_9	HT	EM	`)`	`9`	`I`	`Y`	`i`	`y`			`ｩ`	`ｹ`	`ﾉ`	`ﾙ`
_1010	_A	LF	SUB	`*`	`:`	`J`	`Z`	`j`	`z`			`ｪ`	`ｺ`	`ﾊ`	`ﾚ`
_1011	_B	VT	ESC	`+`	`;`	`K`	`[`	`k`	`{`			`ｫ`	`ｻ`	`ﾋ`	`ﾛ`
_1100	_C	FF	FS	`,`	`<`	`L`	`¥`	`l`	`\|`			`ｬ`	`ｼ`	`ﾌ`	`ﾜ`
_1101	_D	CR	GS	`-`	`=`	`M`	`]`	`m`	`}`			`ｭ`	`ｽ`	`ﾍ`	`ﾝ`
_1110	_E	SO	RS	`.`	`>`	`N`	`^`	`n`	`‾`			`ｮ`	`ｾ`	`ﾎ`	`ﾞ`
_1111	_F	SI	US	`/`	`?`	`O`	`_`	`o`	DEL			`ｯ`	`ｿ`	`ﾏ`	`ﾟ`

ISO 2022

目次へ↑

切替方式は日本語カタカナ表示のために導入されたものですが 1973年に、ISO 2022 の国際規格として制定され、他の国へも汎用化されていきました。また、日本語の2バイト文字への拡張にも発展していきます。

2進	上位3bit	000_	001_	010_	011_	100_	101_	110_	111_
下位4bit	16進	0_	1_	2_	3_	4_	5_	6_	7_
_0000	_0	C0 集合		GL 集合
_0001	_1
_0010	_2
_0011	_3
_0100	_4
_0101	_5
_0110	_6
_0111	_7
_1000	_8
_1001	_9
_1010	_A
_1011	_B
_1100	_C
_1101	_D
_1110	_E
_1111	_F

2進	上位4bit	0000_	0001_	0010_	0011_	0100_	0101_	0110_	0111_	1000_	1001_	1010_	1011_	1100_	1101_	1110_	1111_
下位4bit	16進	0_	1_	2_	3_	4_	5_	6_	7_	8_	9_	A_	B_	C_	D_	E_	F_
_0000	_0	C0 集合		GL 集合						C1 集合		GR 集合
_0001	_1
_0010	_2
_0011	_3
_0100	_4
_0101	_5
_0110	_6
_0111	_7
_1000	_8
_1001	_9
_1010	_A
_1011	_B
_1100	_C
_1101	_D
_1110	_E
_1111	_F

16進コード	略号	ESC+	名称	日本語名称	備考
80	PAD	`@`	Padding Character		ISO/ICE 6429 では未定義
81	HOP	`A`	High Octet Preset		ISO/ICE 6429 では未定義
82	BPH	`B`	Break Permitted Hear	分割許可
83	NBH	`C`	No Break Here	分割禁止
84	IND	`D`	Index		ISO/ICE 6429 では 1992年に廃止
85	NEL	`E`	Next Line	復帰改行
86	SSA	`F`	Start of Selected Area	選択領域開始
87	ESA	`G`	End of Selected Area	選択領域終了
88	HTS	`H`	Horizontal Tabulation Set	水平タブ
89	HTJ	`I`	Horizontal Tabulation With Justification	調整付水平タブ
8A	VTS	`J`	Vertical Tabulation Set	垂直タブ
8B	PLD	`K`	Partial Line Down	下行
8C	PLU	`L`	Partial Line Up	上行
8D	RI	`M`	Reverce Index	前ページ
8E	SS2	`N`	Single-Shift 2	1文字シフト2
8F	SS3	`O`	Single-Shift 3	1文字シフト3
90	DCS	`P`	Device Control String	装置制御文字列
91	PU1	`Q`	Private Use 1	私的利用1
92	PU2	`R`	Private Use 2	私的利用2
93	STS	`S`	Set Transmit State	転送状態設定
94	CCH	`T`	Cancel Character	取消し文字
95	MW	`U`	Message Wating	メッセージ待機
96	SPA	`V`	Start of Protected Area	保護領域開始
97	EPA	`W`	End of Protected Area	保護領域終了
98	SOS	`X`	Start of String	文字列開始
99	SGCI	`Y`	Single Graphic Character Introducer		ISO/ICE 6429 では未定義
9A	SCI	`Z`	Single Character Introducer	単一文字開始
9B	CSI	`[`	Control Sequence Introducer	制御シーケンス開始
9C	ST	`\`	String Terminator	文字列終了
9D	OSC	`]`	Operating System Command	OSコマンド
9E	PM	`^`	Privacy Message	秘密メッセージ
9F	APC	`_`	Application Program Command	APコマンド

ヨーロッパの 8bit 文字コード

目次へ↑

ヨーロッパでは8bit文字へ拡張した文字列が制定されました。 1987年に ISO 8859 として制定された、通称「Latin-1」（ラテン1）と呼ばれるコードは、フランス語、ドイツ語、イタリア語などの西ヨーロッパの言語をカバーしています。その後、中欧、東欧、ギリシャ、ロシア、ヘブライ、トルコ等、様々な文字を収録した8-bitコードが制定されました。現在は ISO と ICE によって共同で保守されていて、現在「ISO/ICE 8859-1」から「ISO/ICE 8859-16」まであります。

2進	上位4bit	0000_	0001_	0010_	0011_	0100_	0101_	0110_	0111_	1000_	1001_	1010_	1011_	1100_	1101_	1110_	1111_
下位4bit	16進	0_	1_	2_	3_	4_	5_	6_	7_	8_	9_	A_	B_	C_	D_	E_	F_
_0000	_0			SP	`0`	`@`	`P`	`	`p`			NBSP	`°`	`À`	`Ð`	`à`	`ð`
_0001	_1			`!`	`1`	`A`	`Q`	`a`	`q`			`¡`	`±`	`Á`	`Ñ`	`á`	`ñ`
_0010	_2			`"`	`2`	`B`	`R`	`b`	`r`			`¢`	`²`	`Â`	`Ò`	`â`	`ò`
_0011	_3			`#`	`3`	`C`	`S`	`c`	`s`			`£`	`³`	`Ã`	`Ó`	`ã`	`ó`
_0100	_4			`$`	`4`	`D`	`T`	`d`	`t`			`¤`	`´`	`Ä`	`Ô`	`ä`	`ô`
_0101	_5			`%`	`5`	`E`	`U`	`e`	`u`			`¥`	`µ`	`Å`	`Õ`	`å`	`õ`
_0110	_6			`&`	`6`	`F`	`V`	`f`	`v`			`¦`	`¶`	`Æ`	`Ö`	`æ`	`ö`
_0111	_7			`'`	`7`	`G`	`W`	`g`	`w`			`§`	`·`	`Ç`	`×`	`ç`	`÷`
_1000	_8			`(`	`8`	`H`	`X`	`h`	`x`			`¨`	`¸`	`È`	`Ø`	`è`	`ø`
_1001	_9			`)`	`9`	`I`	`Y`	`i`	`y`			`©`	`¹`	`É`	`Ù`	`é`	`ù`
_1010	_A			`*`	`:`	`J`	`Z`	`j`	`z`			`ª`	`º`	`Ê`	`Ú`	`ê`	`ú`
_1011	_B			`+`	`;`	`K`	`[`	`k`	`{`			`«`	`»`	`Ë`	`Û`	`ë`	`û`
_1100	_C			`,`	`<`	`L`	`\`	`l`	`\|`			`¬`	`¼`	`Ì`	`Ü`	`ì`	`ü`
_1101	_D			`-`	`=`	`M`	`]`	`m`	`}`			SHY	`½`	`Í`	`Ý`	`í`	`ý`
_1110	_E			`.`	`>`	`N`	`^`	`n`	~			`®`	`¾`	`Î`	`Þ`	`î`	`þ`
_1111	_F			`/`	`?`	`O`	`_`	`o`	DEL			`¯`	`¿`	`Ï`	`ß`	`ï`	`ÿ`

全角文字

目次へ↑

日本語には、ひらがな、カタカナ、漢字と合わせてかなりの種類の文字が存在します。 1バイトの256文字ではとても足りません。そこで、ISO 2022 の7ビットの仕組みを元に日本独自の文字コード規格が作られました。ここで通称全角文字と呼ばれる文字コードが登場したわけです。このコードは2バイト（16ビット）で表現されることが多いので、2バイト文字と呼ばれることがあります。

以下は1978年に「JIS C 6226」として制定され、1987年に「JIS X 0208」に移行した規格の説明です。 ISO 2022 の GL集合の94文字集合を想定して、94×94 = 8,836 の文字集合表を作ります。第1区～第94区、第1点～第94点のマトリクスに以下のように文字を割り当てました。

				01	02	03	04	05	06	07	08	09	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60	61	62	63	64	65	66	67	68	69	70	71	72	73	74	75	76	77	78	79	80	81	82	83	84	85	86	87	88	89	90	91	92	93	94
				点
				第２バイト
				21	22	23	24	25	26	27	28	29	2A	2B	2C	2D	2E	2F	30	31	32	33	34	35	36	37	38	39	3A	3B	3C	3D	3E	3F	40	41	42	43	44	45	46	47	48	49	4A	4B	4C	4D	4E	4F	50	51	52	53	54	55	56	57	58	59	5A	5B	5C	5D	5E	5F	60	61	62	63	64	65	66	67	68	69	6A	6B	6C	6D	6E	6F	70	71	72	73	74	75	76	77	78	79	7A	7B	7C	7D	7E
区	01	第１バイト	21	SP	、	。	，	．	・	：	；	？	！	゛	゜	´	｀	¨	＾	￣	＿	ヽ	ヾ	ゝ	ゞ	〃	仝	々	〆	〇	ー	―	‐	／	＼	～	∥	｜	…	‥	‘	’	“	”	（	）	〔	〕	［	］	｛	｝	〈	〉	《	》	「	」	『	』	【	】	＋	－	±	×	÷	＝	≠	＜	＞	≦	≧	∞	∴	♂	♀	°	′	″	℃	￥	＄	￠	￡	％	＃	＆	＊	＠	§	☆	★	○	●	◎	◇
	02		22	◆	□	■	△	▲	▽	▼	※	〒	→	←	↑	↓	〓												∈	∋	⊆	⊇	⊂	⊃	∪	∩									∧	∨	￢	⇒	⇔	∀	∃												∠	⊥	⌒	∂	∇	≡	≒	≪	≫	√	∽	∝	∵	∫	∬								Å	‰	♯	♭	♪	†	‡	¶					◯
	03		23																０	１	２	３	４	５	６	７	８	９								Ａ	Ｂ	Ｃ	Ｄ	Ｅ	Ｆ	Ｇ	Ｈ	Ｉ	Ｊ	Ｋ	Ｌ	Ｍ	Ｎ	Ｏ	Ｐ	Ｑ	Ｒ	Ｓ	Ｔ	Ｕ	Ｖ	Ｗ	Ｘ	Ｙ	Ｚ							ａ	ｂ	ｃ	ｄ	ｅ	ｆ	ｇ	ｈ	ｉ	ｊ	ｋ	ｌ	ｍ	ｎ	ｏ	ｐ	ｑ	ｒ	ｓ	ｔ	ｕ	ｖ	ｗ	ｘ	ｙ	ｚ
	04		24	ぁ	あ	ぃ	い	ぅ	う	ぇ	え	ぉ	お	か	が	き	ぎ	く	ぐ	け	げ	こ	ご	さ	ざ	し	じ	す	ず	せ	ぜ	そ	ぞ	た	だ	ち	ぢ	っ	つ	づ	て	で	と	ど	な	に	ぬ	ね	の	は	ば	ぱ	ひ	び	ぴ	ふ	ぶ	ぷ	へ	べ	ぺ	ほ	ぼ	ぽ	ま	み	む	め	も	ゃ	や	ゅ	ゆ	ょ	よ	ら	り	る	れ	ろ	ゎ	わ	ゐ	ゑ	を	ん
	05		25	ァ	ア	ィ	イ	ゥ	ウ	ェ	エ	ォ	オ	カ	ガ	キ	ギ	ク	グ	ケ	ゲ	コ	ゴ	サ	ザ	シ	ジ	ス	ズ	セ	ゼ	ソ	ゾ	タ	ダ	チ	ヂ	ッ	ツ	ヅ	テ	デ	ト	ド	ナ	ニ	ヌ	ネ	ノ	ハ	バ	パ	ヒ	ビ	ピ	フ	ブ	プ	ヘ	ベ	ペ	ホ	ボ	ポ	マ	ミ	ム	メ	モ	ャ	ヤ	ュ	ユ	ョ	ヨ	ラ	リ	ル	レ	ロ	ヮ	ワ	ヰ	ヱ	ヲ	ン	ヴ	ヵ	ヶ
	06		26	Α	Β	Γ	Δ	Ε	Ζ	Η	Θ	Ι	Κ	Λ	Μ	Ν	Ξ	Ο	Π	Ρ	Σ	Τ	Υ	Φ	Χ	Ψ	Ω									α	β	γ	δ	ε	ζ	η	θ	ι	κ	λ	μ	ν	ξ	ο	π	ρ	σ	τ	υ	φ	χ	ψ	ω
	07		27	А	Б	В	Г	Д	Е	Ё	Ж	З	И	Й	К	Л	М	Н	О	П	Р	С	Т	У	Ф	Х	Ц	Ч	Ш	Щ	Ъ	Ы	Ь	Э	Ю	Я																а	б	в	г	д	е	ё	ж	з	и	й	к	л	м	н	о	п	р	с	т	у	ф	х	ц	ч	ш	щ	ъ	ы	ь	э	ю	я
	08		28	─	│	┌	┐	┘	└	├	┬	┤	┴	┼	━	┃	┏	┓	┛	┗	┣	┳	┫	┻	╋	┠	┯	┨	┷	┿	┝	┰	┥	┸	╂
	09		29
	10		2A
	11		2B
	12		2C
	13		2D
	14		2E
	15		2F
	16		30	亜	唖	娃	阿	哀	愛	挨	姶	逢	葵	茜	穐	悪	握	渥	旭	葦	芦	鯵	梓	圧	斡	扱	宛	姐	虻	飴	絢	綾	鮎	或	粟	袷	安	庵	按	暗	案	闇	鞍	杏	以	伊	位	依	偉	囲	夷	委	威	尉	惟	意	慰	易	椅	為	畏	異	移	維	緯	胃	萎	衣	謂	違	遺	医	井	亥	域	育	郁	磯	一	壱	溢	逸	稲	茨	芋	鰯	允	印	咽	員	因	姻	引	飲	淫	胤	蔭
	17		31	院	陰	隠	韻	吋	右	宇	烏	羽	迂	雨	卯	鵜	窺	丑	碓	臼	渦	嘘	唄	欝	蔚	鰻	姥	厩	浦	瓜	閏	噂	云	運	雲	荏	餌	叡	営	嬰	影	映	曳	栄	永	泳	洩	瑛	盈	穎	頴	英	衛	詠	鋭	液	疫	益	駅	悦	謁	越	閲	榎	厭	円	園	堰	奄	宴	延	怨	掩	援	沿	演	炎	焔	煙	燕	猿	縁	艶	苑	薗	遠	鉛	鴛	塩	於	汚	甥	凹	央	奥	往	応
	18		32	押	旺	横	欧	殴	王	翁	襖	鴬	鴎	黄	岡	沖	荻	億	屋	憶	臆	桶	牡	乙	俺	卸	恩	温	穏	音	下	化	仮	何	伽	価	佳	加	可	嘉	夏	嫁	家	寡	科	暇	果	架	歌	河	火	珂	禍	禾	稼	箇	花	苛	茄	荷	華	菓	蝦	課	嘩	貨	迦	過	霞	蚊	俄	峨	我	牙	画	臥	芽	蛾	賀	雅	餓	駕	介	会	解	回	塊	壊	廻	快	怪	悔	恢	懐	戒	拐	改
	19		33	魁	晦	械	海	灰	界	皆	絵	芥	蟹	開	階	貝	凱	劾	外	咳	害	崖	慨	概	涯	碍	蓋	街	該	鎧	骸	浬	馨	蛙	垣	柿	蛎	鈎	劃	嚇	各	廓	拡	撹	格	核	殻	獲	確	穫	覚	角	赫	較	郭	閣	隔	革	学	岳	楽	額	顎	掛	笠	樫	橿	梶	鰍	潟	割	喝	恰	括	活	渇	滑	葛	褐	轄	且	鰹	叶	椛	樺	鞄	株	兜	竃	蒲	釜	鎌	噛	鴨	栢	茅	萱
	20		34	粥	刈	苅	瓦	乾	侃	冠	寒	刊	勘	勧	巻	喚	堪	姦	完	官	寛	干	幹	患	感	慣	憾	換	敢	柑	桓	棺	款	歓	汗	漢	澗	潅	環	甘	監	看	竿	管	簡	緩	缶	翰	肝	艦	莞	観	諌	貫	還	鑑	間	閑	関	陥	韓	館	舘	丸	含	岸	巌	玩	癌	眼	岩	翫	贋	雁	頑	顔	願	企	伎	危	喜	器	基	奇	嬉	寄	岐	希	幾	忌	揮	机	旗	既	期	棋	棄
	21		35	機	帰	毅	気	汽	畿	祈	季	稀	紀	徽	規	記	貴	起	軌	輝	飢	騎	鬼	亀	偽	儀	妓	宜	戯	技	擬	欺	犠	疑	祇	義	蟻	誼	議	掬	菊	鞠	吉	吃	喫	桔	橘	詰	砧	杵	黍	却	客	脚	虐	逆	丘	久	仇	休	及	吸	宮	弓	急	救	朽	求	汲	泣	灸	球	究	窮	笈	級	糾	給	旧	牛	去	居	巨	拒	拠	挙	渠	虚	許	距	鋸	漁	禦	魚	亨	享	京
	22		36	供	侠	僑	兇	競	共	凶	協	匡	卿	叫	喬	境	峡	強	彊	怯	恐	恭	挟	教	橋	況	狂	狭	矯	胸	脅	興	蕎	郷	鏡	響	饗	驚	仰	凝	尭	暁	業	局	曲	極	玉	桐	粁	僅	勤	均	巾	錦	斤	欣	欽	琴	禁	禽	筋	緊	芹	菌	衿	襟	謹	近	金	吟	銀	九	倶	句	区	狗	玖	矩	苦	躯	駆	駈	駒	具	愚	虞	喰	空	偶	寓	遇	隅	串	櫛	釧	屑	屈
	23		37	掘	窟	沓	靴	轡	窪	熊	隈	粂	栗	繰	桑	鍬	勲	君	薫	訓	群	軍	郡	卦	袈	祁	係	傾	刑	兄	啓	圭	珪	型	契	形	径	恵	慶	慧	憩	掲	携	敬	景	桂	渓	畦	稽	系	経	継	繋	罫	茎	荊	蛍	計	詣	警	軽	頚	鶏	芸	迎	鯨	劇	戟	撃	激	隙	桁	傑	欠	決	潔	穴	結	血	訣	月	件	倹	倦	健	兼	券	剣	喧	圏	堅	嫌	建	憲	懸	拳	捲
	24		38	検	権	牽	犬	献	研	硯	絹	県	肩	見	謙	賢	軒	遣	鍵	険	顕	験	鹸	元	原	厳	幻	弦	減	源	玄	現	絃	舷	言	諺	限	乎	個	古	呼	固	姑	孤	己	庫	弧	戸	故	枯	湖	狐	糊	袴	股	胡	菰	虎	誇	跨	鈷	雇	顧	鼓	五	互	伍	午	呉	吾	娯	後	御	悟	梧	檎	瑚	碁	語	誤	護	醐	乞	鯉	交	佼	侯	候	倖	光	公	功	効	勾	厚	口	向
	25		39	后	喉	坑	垢	好	孔	孝	宏	工	巧	巷	幸	広	庚	康	弘	恒	慌	抗	拘	控	攻	昂	晃	更	杭	校	梗	構	江	洪	浩	港	溝	甲	皇	硬	稿	糠	紅	紘	絞	綱	耕	考	肯	肱	腔	膏	航	荒	行	衡	講	貢	購	郊	酵	鉱	砿	鋼	閤	降	項	香	高	鴻	剛	劫	号	合	壕	拷	濠	豪	轟	麹	克	刻	告	国	穀	酷	鵠	黒	獄	漉	腰	甑	忽	惚	骨	狛	込
	26		3A	此	頃	今	困	坤	墾	婚	恨	懇	昏	昆	根	梱	混	痕	紺	艮	魂	些	佐	叉	唆	嵯	左	差	査	沙	瑳	砂	詐	鎖	裟	坐	座	挫	債	催	再	最	哉	塞	妻	宰	彩	才	採	栽	歳	済	災	采	犀	砕	砦	祭	斎	細	菜	裁	載	際	剤	在	材	罪	財	冴	坂	阪	堺	榊	肴	咲	崎	埼	碕	鷺	作	削	咋	搾	昨	朔	柵	窄	策	索	錯	桜	鮭	笹	匙	冊	刷
	27		3B	察	拶	撮	擦	札	殺	薩	雑	皐	鯖	捌	錆	鮫	皿	晒	三	傘	参	山	惨	撒	散	桟	燦	珊	産	算	纂	蚕	讃	賛	酸	餐	斬	暫	残	仕	仔	伺	使	刺	司	史	嗣	四	士	始	姉	姿	子	屍	市	師	志	思	指	支	孜	斯	施	旨	枝	止	死	氏	獅	祉	私	糸	紙	紫	肢	脂	至	視	詞	詩	試	誌	諮	資	賜	雌	飼	歯	事	似	侍	児	字	寺	慈	持	時
	28		3C	次	滋	治	爾	璽	痔	磁	示	而	耳	自	蒔	辞	汐	鹿	式	識	鴫	竺	軸	宍	雫	七	叱	執	失	嫉	室	悉	湿	漆	疾	質	実	蔀	篠	偲	柴	芝	屡	蕊	縞	舎	写	射	捨	赦	斜	煮	社	紗	者	謝	車	遮	蛇	邪	借	勺	尺	杓	灼	爵	酌	釈	錫	若	寂	弱	惹	主	取	守	手	朱	殊	狩	珠	種	腫	趣	酒	首	儒	受	呪	寿	授	樹	綬	需	囚	収	周
	29		3D	宗	就	州	修	愁	拾	洲	秀	秋	終	繍	習	臭	舟	蒐	衆	襲	讐	蹴	輯	週	酋	酬	集	醜	什	住	充	十	従	戎	柔	汁	渋	獣	縦	重	銃	叔	夙	宿	淑	祝	縮	粛	塾	熟	出	術	述	俊	峻	春	瞬	竣	舜	駿	准	循	旬	楯	殉	淳	準	潤	盾	純	巡	遵	醇	順	処	初	所	暑	曙	渚	庶	緒	署	書	薯	藷	諸	助	叙	女	序	徐	恕	鋤	除	傷	償
	30		3E	勝	匠	升	召	哨	商	唱	嘗	奨	妾	娼	宵	将	小	少	尚	庄	床	廠	彰	承	抄	招	掌	捷	昇	昌	昭	晶	松	梢	樟	樵	沼	消	渉	湘	焼	焦	照	症	省	硝	礁	祥	称	章	笑	粧	紹	肖	菖	蒋	蕉	衝	裳	訟	証	詔	詳	象	賞	醤	鉦	鍾	鐘	障	鞘	上	丈	丞	乗	冗	剰	城	場	壌	嬢	常	情	擾	条	杖	浄	状	畳	穣	蒸	譲	醸	錠	嘱	埴	飾
	31		3F	拭	植	殖	燭	織	職	色	触	食	蝕	辱	尻	伸	信	侵	唇	娠	寝	審	心	慎	振	新	晋	森	榛	浸	深	申	疹	真	神	秦	紳	臣	芯	薪	親	診	身	辛	進	針	震	人	仁	刃	塵	壬	尋	甚	尽	腎	訊	迅	陣	靭	笥	諏	須	酢	図	厨	逗	吹	垂	帥	推	水	炊	睡	粋	翠	衰	遂	酔	錐	錘	随	瑞	髄	崇	嵩	数	枢	趨	雛	据	杉	椙	菅	頗	雀	裾
	32		40	澄	摺	寸	世	瀬	畝	是	凄	制	勢	姓	征	性	成	政	整	星	晴	棲	栖	正	清	牲	生	盛	精	聖	声	製	西	誠	誓	請	逝	醒	青	静	斉	税	脆	隻	席	惜	戚	斥	昔	析	石	積	籍	績	脊	責	赤	跡	蹟	碩	切	拙	接	摂	折	設	窃	節	説	雪	絶	舌	蝉	仙	先	千	占	宣	専	尖	川	戦	扇	撰	栓	栴	泉	浅	洗	染	潜	煎	煽	旋	穿	箭	線
	33		41	繊	羨	腺	舛	船	薦	詮	賎	践	選	遷	銭	銑	閃	鮮	前	善	漸	然	全	禅	繕	膳	糎	噌	塑	岨	措	曾	曽	楚	狙	疏	疎	礎	祖	租	粗	素	組	蘇	訴	阻	遡	鼠	僧	創	双	叢	倉	喪	壮	奏	爽	宋	層	匝	惣	想	捜	掃	挿	掻	操	早	曹	巣	槍	槽	漕	燥	争	痩	相	窓	糟	総	綜	聡	草	荘	葬	蒼	藻	装	走	送	遭	鎗	霜	騒	像	増	憎
	34		42	臓	蔵	贈	造	促	側	則	即	息	捉	束	測	足	速	俗	属	賊	族	続	卒	袖	其	揃	存	孫	尊	損	村	遜	他	多	太	汰	詑	唾	堕	妥	惰	打	柁	舵	楕	陀	駄	騨	体	堆	対	耐	岱	帯	待	怠	態	戴	替	泰	滞	胎	腿	苔	袋	貸	退	逮	隊	黛	鯛	代	台	大	第	醍	題	鷹	滝	瀧	卓	啄	宅	托	択	拓	沢	濯	琢	託	鐸	濁	諾	茸	凧	蛸	只
	35		43	叩	但	達	辰	奪	脱	巽	竪	辿	棚	谷	狸	鱈	樽	誰	丹	単	嘆	坦	担	探	旦	歎	淡	湛	炭	短	端	箪	綻	耽	胆	蛋	誕	鍛	団	壇	弾	断	暖	檀	段	男	談	値	知	地	弛	恥	智	池	痴	稚	置	致	蜘	遅	馳	築	畜	竹	筑	蓄	逐	秩	窒	茶	嫡	着	中	仲	宙	忠	抽	昼	柱	注	虫	衷	註	酎	鋳	駐	樗	瀦	猪	苧	著	貯	丁	兆	凋	喋	寵
	36		44	帖	帳	庁	弔	張	彫	徴	懲	挑	暢	朝	潮	牒	町	眺	聴	脹	腸	蝶	調	諜	超	跳	銚	長	頂	鳥	勅	捗	直	朕	沈	珍	賃	鎮	陳	津	墜	椎	槌	追	鎚	痛	通	塚	栂	掴	槻	佃	漬	柘	辻	蔦	綴	鍔	椿	潰	坪	壷	嬬	紬	爪	吊	釣	鶴	亭	低	停	偵	剃	貞	呈	堤	定	帝	底	庭	廷	弟	悌	抵	挺	提	梯	汀	碇	禎	程	締	艇	訂	諦	蹄	逓
	37		45	邸	鄭	釘	鼎	泥	摘	擢	敵	滴	的	笛	適	鏑	溺	哲	徹	撤	轍	迭	鉄	典	填	天	展	店	添	纏	甜	貼	転	顛	点	伝	殿	澱	田	電	兎	吐	堵	塗	妬	屠	徒	斗	杜	渡	登	菟	賭	途	都	鍍	砥	砺	努	度	土	奴	怒	倒	党	冬	凍	刀	唐	塔	塘	套	宕	島	嶋	悼	投	搭	東	桃	梼	棟	盗	淘	湯	涛	灯	燈	当	痘	祷	等	答	筒	糖	統	到
	38		46	董	蕩	藤	討	謄	豆	踏	逃	透	鐙	陶	頭	騰	闘	働	動	同	堂	導	憧	撞	洞	瞳	童	胴	萄	道	銅	峠	鴇	匿	得	徳	涜	特	督	禿	篤	毒	独	読	栃	橡	凸	突	椴	届	鳶	苫	寅	酉	瀞	噸	屯	惇	敦	沌	豚	遁	頓	呑	曇	鈍	奈	那	内	乍	凪	薙	謎	灘	捺	鍋	楢	馴	縄	畷	南	楠	軟	難	汝	二	尼	弐	迩	匂	賑	肉	虹	廿	日	乳	入
	39		47	如	尿	韮	任	妊	忍	認	濡	禰	祢	寧	葱	猫	熱	年	念	捻	撚	燃	粘	乃	廼	之	埜	嚢	悩	濃	納	能	脳	膿	農	覗	蚤	巴	把	播	覇	杷	波	派	琶	破	婆	罵	芭	馬	俳	廃	拝	排	敗	杯	盃	牌	背	肺	輩	配	倍	培	媒	梅	楳	煤	狽	買	売	賠	陪	這	蝿	秤	矧	萩	伯	剥	博	拍	柏	泊	白	箔	粕	舶	薄	迫	曝	漠	爆	縛	莫	駁	麦
	40		48	函	箱	硲	箸	肇	筈	櫨	幡	肌	畑	畠	八	鉢	溌	発	醗	髪	伐	罰	抜	筏	閥	鳩	噺	塙	蛤	隼	伴	判	半	反	叛	帆	搬	斑	板	氾	汎	版	犯	班	畔	繁	般	藩	販	範	釆	煩	頒	飯	挽	晩	番	盤	磐	蕃	蛮	匪	卑	否	妃	庇	彼	悲	扉	批	披	斐	比	泌	疲	皮	碑	秘	緋	罷	肥	被	誹	費	避	非	飛	樋	簸	備	尾	微	枇	毘	琵	眉	美
	41		49	鼻	柊	稗	匹	疋	髭	彦	膝	菱	肘	弼	必	畢	筆	逼	桧	姫	媛	紐	百	謬	俵	彪	標	氷	漂	瓢	票	表	評	豹	廟	描	病	秒	苗	錨	鋲	蒜	蛭	鰭	品	彬	斌	浜	瀕	貧	賓	頻	敏	瓶	不	付	埠	夫	婦	富	冨	布	府	怖	扶	敷	斧	普	浮	父	符	腐	膚	芙	譜	負	賦	赴	阜	附	侮	撫	武	舞	葡	蕪	部	封	楓	風	葺	蕗	伏	副	復	幅	服
	42		4A	福	腹	複	覆	淵	弗	払	沸	仏	物	鮒	分	吻	噴	墳	憤	扮	焚	奮	粉	糞	紛	雰	文	聞	丙	併	兵	塀	幣	平	弊	柄	並	蔽	閉	陛	米	頁	僻	壁	癖	碧	別	瞥	蔑	箆	偏	変	片	篇	編	辺	返	遍	便	勉	娩	弁	鞭	保	舗	鋪	圃	捕	歩	甫	補	輔	穂	募	墓	慕	戊	暮	母	簿	菩	倣	俸	包	呆	報	奉	宝	峰	峯	崩	庖	抱	捧	放	方	朋
	43		4B	法	泡	烹	砲	縫	胞	芳	萌	蓬	蜂	褒	訪	豊	邦	鋒	飽	鳳	鵬	乏	亡	傍	剖	坊	妨	帽	忘	忙	房	暴	望	某	棒	冒	紡	肪	膨	謀	貌	貿	鉾	防	吠	頬	北	僕	卜	墨	撲	朴	牧	睦	穆	釦	勃	没	殆	堀	幌	奔	本	翻	凡	盆	摩	磨	魔	麻	埋	妹	昧	枚	毎	哩	槙	幕	膜	枕	鮪	柾	鱒	桝	亦	俣	又	抹	末	沫	迄	侭	繭	麿	万	慢	満
	44		4C	漫	蔓	味	未	魅	巳	箕	岬	密	蜜	湊	蓑	稔	脈	妙	粍	民	眠	務	夢	無	牟	矛	霧	鵡	椋	婿	娘	冥	名	命	明	盟	迷	銘	鳴	姪	牝	滅	免	棉	綿	緬	面	麺	摸	模	茂	妄	孟	毛	猛	盲	網	耗	蒙	儲	木	黙	目	杢	勿	餅	尤	戻	籾	貰	問	悶	紋	門	匁	也	冶	夜	爺	耶	野	弥	矢	厄	役	約	薬	訳	躍	靖	柳	薮	鑓	愉	愈	油	癒
	45		4D	諭	輸	唯	佑	優	勇	友	宥	幽	悠	憂	揖	有	柚	湧	涌	猶	猷	由	祐	裕	誘	遊	邑	郵	雄	融	夕	予	余	与	誉	輿	預	傭	幼	妖	容	庸	揚	揺	擁	曜	楊	様	洋	溶	熔	用	窯	羊	耀	葉	蓉	要	謡	踊	遥	陽	養	慾	抑	欲	沃	浴	翌	翼	淀	羅	螺	裸	来	莱	頼	雷	洛	絡	落	酪	乱	卵	嵐	欄	濫	藍	蘭	覧	利	吏	履	李	梨	理	璃
	46		4E	痢	裏	裡	里	離	陸	律	率	立	葎	掠	略	劉	流	溜	琉	留	硫	粒	隆	竜	龍	侶	慮	旅	虜	了	亮	僚	両	凌	寮	料	梁	涼	猟	療	瞭	稜	糧	良	諒	遼	量	陵	領	力	緑	倫	厘	林	淋	燐	琳	臨	輪	隣	鱗	麟	瑠	塁	涙	累	類	令	伶	例	冷	励	嶺	怜	玲	礼	苓	鈴	隷	零	霊	麗	齢	暦	歴	列	劣	烈	裂	廉	恋	憐	漣	煉	簾	練	聯
	47		4F	蓮	連	錬	呂	魯	櫓	炉	賂	路	露	労	婁	廊	弄	朗	楼	榔	浪	漏	牢	狼	篭	老	聾	蝋	郎	六	麓	禄	肋	録	論	倭	和	話	歪	賄	脇	惑	枠	鷲	亙	亘	鰐	詫	藁	蕨	椀	湾	碗	腕
	48		50	弌	丐	丕	个	丱	丶	丼	丿	乂	乖	乘	亂	亅	豫	亊	舒	弍	于	亞	亟	亠	亢	亰	亳	亶	从	仍	仄	仆	仂	仗	仞	仭	仟	价	伉	佚	估	佛	佝	佗	佇	佶	侈	侏	侘	佻	佩	佰	侑	佯	來	侖	儘	俔	俟	俎	俘	俛	俑	俚	俐	俤	俥	倚	倨	倔	倪	倥	倅	伜	俶	倡	倩	倬	俾	俯	們	倆	偃	假	會	偕	偐	偈	做	偖	偬	偸	傀	傚	傅	傴	傲
	49		51	僉	僊	傳	僂	僖	僞	僥	僭	僣	僮	價	僵	儉	儁	儂	儖	儕	儔	儚	儡	儺	儷	儼	儻	儿	兀	兒	兌	兔	兢	竸	兩	兪	兮	冀	冂	囘	册	冉	冏	冑	冓	冕	冖	冤	冦	冢	冩	冪	冫	决	冱	冲	冰	况	冽	凅	凉	凛	几	處	凩	凭	凰	凵	凾	刄	刋	刔	刎	刧	刪	刮	刳	刹	剏	剄	剋	剌	剞	剔	剪	剴	剩	剳	剿	剽	劍	劔	劒	剱	劈	劑	辨
	50		52	辧	劬	劭	劼	劵	勁	勍	勗	勞	勣	勦	飭	勠	勳	勵	勸	勹	匆	匈	甸	匍	匐	匏	匕	匚	匣	匯	匱	匳	匸	區	卆	卅	丗	卉	卍	凖	卞	卩	卮	夘	卻	卷	厂	厖	厠	厦	厥	厮	厰	厶	參	簒	雙	叟	曼	燮	叮	叨	叭	叺	吁	吽	呀	听	吭	吼	吮	吶	吩	吝	呎	咏	呵	咎	呟	呱	呷	呰	咒	呻	咀	呶	咄	咐	咆	哇	咢	咸	咥	咬	哄	哈	咨
	51		53	咫	哂	咤	咾	咼	哘	哥	哦	唏	唔	哽	哮	哭	哺	哢	唹	啀	啣	啌	售	啜	啅	啖	啗	唸	唳	啝	喙	喀	咯	喊	喟	啻	啾	喘	喞	單	啼	喃	喩	喇	喨	嗚	嗅	嗟	嗄	嗜	嗤	嗔	嘔	嗷	嘖	嗾	嗽	嘛	嗹	噎	噐	營	嘴	嘶	嘲	嘸	噫	噤	嘯	噬	噪	嚆	嚀	嚊	嚠	嚔	嚏	嚥	嚮	嚶	嚴	囂	嚼	囁	囃	囀	囈	囎	囑	囓	囗	囮	囹	圀	囿	圄	圉
	52		54	圈	國	圍	圓	團	圖	嗇	圜	圦	圷	圸	坎	圻	址	坏	坩	埀	垈	坡	坿	垉	垓	垠	垳	垤	垪	垰	埃	埆	埔	埒	埓	堊	埖	埣	堋	堙	堝	塲	堡	塢	塋	塰	毀	塒	堽	塹	墅	墹	墟	墫	墺	壞	墻	墸	墮	壅	壓	壑	壗	壙	壘	壥	壜	壤	壟	壯	壺	壹	壻	壼	壽	夂	夊	夐	夛	梦	夥	夬	夭	夲	夸	夾	竒	奕	奐	奎	奚	奘	奢	奠	奧	奬	奩
	53		55	奸	妁	妝	佞	侫	妣	妲	姆	姨	姜	妍	姙	姚	娥	娟	娑	娜	娉	娚	婀	婬	婉	娵	娶	婢	婪	媚	媼	媾	嫋	嫂	媽	嫣	嫗	嫦	嫩	嫖	嫺	嫻	嬌	嬋	嬖	嬲	嫐	嬪	嬶	嬾	孃	孅	孀	孑	孕	孚	孛	孥	孩	孰	孳	孵	學	斈	孺	宀	它	宦	宸	寃	寇	寉	寔	寐	寤	實	寢	寞	寥	寫	寰	寶	寳	尅	將	專	對	尓	尠	尢	尨	尸	尹	屁	屆	屎	屓
	54		56	屐	屏	孱	屬	屮	乢	屶	屹	岌	岑	岔	妛	岫	岻	岶	岼	岷	峅	岾	峇	峙	峩	峽	峺	峭	嶌	峪	崋	崕	崗	嵜	崟	崛	崑	崔	崢	崚	崙	崘	嵌	嵒	嵎	嵋	嵬	嵳	嵶	嶇	嶄	嶂	嶢	嶝	嶬	嶮	嶽	嶐	嶷	嶼	巉	巍	巓	巒	巖	巛	巫	已	巵	帋	帚	帙	帑	帛	帶	帷	幄	幃	幀	幎	幗	幔	幟	幢	幤	幇	幵	并	幺	麼	广	庠	廁	廂	廈	廐	廏
	55		57	廖	廣	廝	廚	廛	廢	廡	廨	廩	廬	廱	廳	廰	廴	廸	廾	弃	弉	彝	彜	弋	弑	弖	弩	弭	弸	彁	彈	彌	彎	弯	彑	彖	彗	彙	彡	彭	彳	彷	徃	徂	彿	徊	很	徑	徇	從	徙	徘	徠	徨	徭	徼	忖	忻	忤	忸	忱	忝	悳	忿	怡	恠	怙	怐	怩	怎	怱	怛	怕	怫	怦	怏	怺	恚	恁	恪	恷	恟	恊	恆	恍	恣	恃	恤	恂	恬	恫	恙	悁	悍	惧	悃	悚
	56		58	悄	悛	悖	悗	悒	悧	悋	惡	悸	惠	惓	悴	忰	悽	惆	悵	惘	慍	愕	愆	惶	惷	愀	惴	惺	愃	愡	惻	惱	愍	愎	慇	愾	愨	愧	慊	愿	愼	愬	愴	愽	慂	慄	慳	慷	慘	慙	慚	慫	慴	慯	慥	慱	慟	慝	慓	慵	憙	憖	憇	憬	憔	憚	憊	憑	憫	憮	懌	懊	應	懷	懈	懃	懆	憺	懋	罹	懍	懦	懣	懶	懺	懴	懿	懽	懼	懾	戀	戈	戉	戍	戌	戔	戛
	57		59	戞	戡	截	戮	戰	戲	戳	扁	扎	扞	扣	扛	扠	扨	扼	抂	抉	找	抒	抓	抖	拔	抃	抔	拗	拑	抻	拏	拿	拆	擔	拈	拜	拌	拊	拂	拇	抛	拉	挌	拮	拱	挧	挂	挈	拯	拵	捐	挾	捍	搜	捏	掖	掎	掀	掫	捶	掣	掏	掉	掟	掵	捫	捩	掾	揩	揀	揆	揣	揉	插	揶	揄	搖	搴	搆	搓	搦	搶	攝	搗	搨	搏	摧	摯	摶	摎	攪	撕	撓	撥	撩	撈	撼
	58		5A	據	擒	擅	擇	撻	擘	擂	擱	擧	舉	擠	擡	抬	擣	擯	攬	擶	擴	擲	擺	攀	擽	攘	攜	攅	攤	攣	攫	攴	攵	攷	收	攸	畋	效	敖	敕	敍	敘	敞	敝	敲	數	斂	斃	變	斛	斟	斫	斷	旃	旆	旁	旄	旌	旒	旛	旙	无	旡	旱	杲	昊	昃	旻	杳	昵	昶	昴	昜	晏	晄	晉	晁	晞	晝	晤	晧	晨	晟	晢	晰	暃	暈	暎	暉	暄	暘	暝	曁	暹	曉	暾	暼
	59		5B	曄	暸	曖	曚	曠	昿	曦	曩	曰	曵	曷	朏	朖	朞	朦	朧	霸	朮	朿	朶	杁	朸	朷	杆	杞	杠	杙	杣	杤	枉	杰	枩	杼	杪	枌	枋	枦	枡	枅	枷	柯	枴	柬	枳	柩	枸	柤	柞	柝	柢	柮	枹	柎	柆	柧	檜	栞	框	栩	桀	桍	栲	桎	梳	栫	桙	档	桷	桿	梟	梏	梭	梔	條	梛	梃	檮	梹	桴	梵	梠	梺	椏	梍	桾	椁	棊	椈	棘	椢	椦	棡	椌	棍
	60		5C	棔	棧	棕	椶	椒	椄	棗	棣	椥	棹	棠	棯	椨	椪	椚	椣	椡	棆	楹	楷	楜	楸	楫	楔	楾	楮	椹	楴	椽	楙	椰	楡	楞	楝	榁	楪	榲	榮	槐	榿	槁	槓	榾	槎	寨	槊	槝	榻	槃	榧	樮	榑	榠	榜	榕	榴	槞	槨	樂	樛	槿	權	槹	槲	槧	樅	榱	樞	槭	樔	槫	樊	樒	櫁	樣	樓	橄	樌	橲	樶	橸	橇	橢	橙	橦	橈	樸	樢	檐	檍	檠	檄	檢	檣
	61		5D	檗	蘗	檻	櫃	櫂	檸	檳	檬	櫞	櫑	櫟	檪	櫚	櫪	櫻	欅	蘖	櫺	欒	欖	鬱	欟	欸	欷	盜	欹	飮	歇	歃	歉	歐	歙	歔	歛	歟	歡	歸	歹	歿	殀	殄	殃	殍	殘	殕	殞	殤	殪	殫	殯	殲	殱	殳	殷	殼	毆	毋	毓	毟	毬	毫	毳	毯	麾	氈	氓	气	氛	氤	氣	汞	汕	汢	汪	沂	沍	沚	沁	沛	汾	汨	汳	沒	沐	泄	泱	泓	沽	泗	泅	泝	沮	沱	沾
	62		5E	沺	泛	泯	泙	泪	洟	衍	洶	洫	洽	洸	洙	洵	洳	洒	洌	浣	涓	浤	浚	浹	浙	涎	涕	濤	涅	淹	渕	渊	涵	淇	淦	涸	淆	淬	淞	淌	淨	淒	淅	淺	淙	淤	淕	淪	淮	渭	湮	渮	渙	湲	湟	渾	渣	湫	渫	湶	湍	渟	湃	渺	湎	渤	滿	渝	游	溂	溪	溘	滉	溷	滓	溽	溯	滄	溲	滔	滕	溏	溥	滂	溟	潁	漑	灌	滬	滸	滾	漿	滲	漱	滯	漲	滌
	63		5F	漾	漓	滷	澆	潺	潸	澁	澀	潯	潛	濳	潭	澂	潼	潘	澎	澑	濂	潦	澳	澣	澡	澤	澹	濆	澪	濟	濕	濬	濔	濘	濱	濮	濛	瀉	瀋	濺	瀑	瀁	瀏	濾	瀛	瀚	潴	瀝	瀘	瀟	瀰	瀾	瀲	灑	灣	炙	炒	炯	烱	炬	炸	炳	炮	烟	烋	烝	烙	焉	烽	焜	焙	煥	煕	熈	煦	煢	煌	煖	煬	熏	燻	熄	熕	熨	熬	燗	熹	熾	燒	燉	燔	燎	燠	燬	燧	燵	燼
	64		60	燹	燿	爍	爐	爛	爨	爭	爬	爰	爲	爻	爼	爿	牀	牆	牋	牘	牴	牾	犂	犁	犇	犒	犖	犢	犧	犹	犲	狃	狆	狄	狎	狒	狢	狠	狡	狹	狷	倏	猗	猊	猜	猖	猝	猴	猯	猩	猥	猾	獎	獏	默	獗	獪	獨	獰	獸	獵	獻	獺	珈	玳	珎	玻	珀	珥	珮	珞	璢	琅	瑯	琥	珸	琲	琺	瑕	琿	瑟	瑙	瑁	瑜	瑩	瑰	瑣	瑪	瑶	瑾	璋	璞	璧	瓊	瓏	瓔	珱
65	61	瓠	瓣	瓧	瓩	瓮	瓲	瓰	瓱	瓸	瓷	甄	甃	甅	甌	甎	甍	甕	甓	甞	甦	甬	甼	畄	畍	畊	畉	畛	畆	畚	畩	畤	畧	畫	畭	畸	當	疆	疇	畴	疊	疉	疂	疔	疚	疝	疥	疣	痂	疳	痃	疵	疽	疸	疼	疱	痍	痊	痒	痙	痣	痞	痾	痿	痼	瘁	痰	痺	痲	痳	瘋	瘍	瘉	瘟	瘧	瘠	瘡	瘢	瘤	瘴	瘰	瘻	癇	癈	癆	癜	癘	癡	癢	癨	癩	癪	癧	癬	癰
66	62	癲	癶	癸	發	皀	皃	皈	皋	皎	皖	皓	皙	皚	皰	皴	皸	皹	皺	盂	盍	盖	盒	盞	盡	盥	盧	盪	蘯	盻	眈	眇	眄	眩	眤	眞	眥	眦	眛	眷	眸	睇	睚	睨	睫	睛	睥	睿	睾	睹	瞎	瞋	瞑	瞠	瞞	瞰	瞶	瞹	瞿	瞼	瞽	瞻	矇	矍	矗	矚	矜	矣	矮	矼	砌	砒	礦	砠	礪	硅	碎	硴	碆	硼	碚	碌	碣	碵	碪	碯	磑	磆	磋	磔	碾	碼	磅	磊	磬
67	63	磧	磚	磽	磴	礇	礒	礑	礙	礬	礫	祀	祠	祗	祟	祚	祕	祓	祺	祿	禊	禝	禧	齋	禪	禮	禳	禹	禺	秉	秕	秧	秬	秡	秣	稈	稍	稘	稙	稠	稟	禀	稱	稻	稾	稷	穃	穗	穉	穡	穢	穩	龝	穰	穹	穽	窈	窗	窕	窘	窖	窩	竈	窰	窶	竅	竄	窿	邃	竇	竊	竍	竏	竕	竓	站	竚	竝	竡	竢	竦	竭	竰	笂	笏	笊	笆	笳	笘	笙	笞	笵	笨	笶	筐
68	64	筺	笄	筍	笋	筌	筅	筵	筥	筴	筧	筰	筱	筬	筮	箝	箘	箟	箍	箜	箚	箋	箒	箏	筝	箙	篋	篁	篌	篏	箴	篆	篝	篩	簑	簔	篦	篥	籠	簀	簇	簓	篳	篷	簗	簍	篶	簣	簧	簪	簟	簷	簫	簽	籌	籃	籔	籏	籀	籐	籘	籟	籤	籖	籥	籬	籵	粃	粐	粤	粭	粢	粫	粡	粨	粳	粲	粱	粮	粹	粽	糀	糅	糂	糘	糒	糜	糢	鬻	糯	糲	糴	糶	糺	紆
69	65	紂	紜	紕	紊	絅	絋	紮	紲	紿	紵	絆	絳	絖	絎	絲	絨	絮	絏	絣	經	綉	絛	綏	絽	綛	綺	綮	綣	綵	緇	綽	綫	總	綢	綯	緜	綸	綟	綰	緘	緝	緤	緞	緻	緲	緡	縅	縊	縣	縡	縒	縱	縟	縉	縋	縢	繆	繦	縻	縵	縹	繃	縷	縲	縺	繧	繝	繖	繞	繙	繚	繹	繪	繩	繼	繻	纃	緕	繽	辮	繿	纈	纉	續	纒	纐	纓	纔	纖	纎	纛	纜	缸	缺
70	66	罅	罌	罍	罎	罐	网	罕	罔	罘	罟	罠	罨	罩	罧	罸	羂	羆	羃	羈	羇	羌	羔	羞	羝	羚	羣	羯	羲	羹	羮	羶	羸	譱	翅	翆	翊	翕	翔	翡	翦	翩	翳	翹	飜	耆	耄	耋	耒	耘	耙	耜	耡	耨	耿	耻	聊	聆	聒	聘	聚	聟	聢	聨	聳	聲	聰	聶	聹	聽	聿	肄	肆	肅	肛	肓	肚	肭	冐	肬	胛	胥	胙	胝	胄	胚	胖	脉	胯	胱	脛	脩	脣	脯	腋
71	67	隋	腆	脾	腓	腑	胼	腱	腮	腥	腦	腴	膃	膈	膊	膀	膂	膠	膕	膤	膣	腟	膓	膩	膰	膵	膾	膸	膽	臀	臂	膺	臉	臍	臑	臙	臘	臈	臚	臟	臠	臧	臺	臻	臾	舁	舂	舅	與	舊	舍	舐	舖	舩	舫	舸	舳	艀	艙	艘	艝	艚	艟	艤	艢	艨	艪	艫	舮	艱	艷	艸	艾	芍	芒	芫	芟	芻	芬	苡	苣	苟	苒	苴	苳	苺	莓	范	苻	苹	苞	茆	苜	茉	苙
72	68	茵	茴	茖	茲	茱	荀	茹	荐	荅	茯	茫	茗	茘	莅	莚	莪	莟	莢	莖	茣	莎	莇	莊	荼	莵	荳	荵	莠	莉	莨	菴	萓	菫	菎	菽	萃	菘	萋	菁	菷	萇	菠	菲	萍	萢	萠	莽	萸	蔆	菻	葭	萪	萼	蕚	蒄	葷	葫	蒭	葮	蒂	葩	葆	萬	葯	葹	萵	蓊	葢	蒹	蒿	蒟	蓙	蓍	蒻	蓚	蓐	蓁	蓆	蓖	蒡	蔡	蓿	蓴	蔗	蔘	蔬	蔟	蔕	蔔	蓼	蕀	蕣	蕘	蕈
73	69	蕁	蘂	蕋	蕕	薀	薤	薈	薑	薊	薨	蕭	薔	薛	藪	薇	薜	蕷	蕾	薐	藉	薺	藏	薹	藐	藕	藝	藥	藜	藹	蘊	蘓	蘋	藾	藺	蘆	蘢	蘚	蘰	蘿	虍	乕	虔	號	虧	虱	蚓	蚣	蚩	蚪	蚋	蚌	蚶	蚯	蛄	蛆	蚰	蛉	蠣	蚫	蛔	蛞	蛩	蛬	蛟	蛛	蛯	蜒	蜆	蜈	蜀	蜃	蛻	蜑	蜉	蜍	蛹	蜊	蜴	蜿	蜷	蜻	蜥	蜩	蜚	蝠	蝟	蝸	蝌	蝎	蝴	蝗	蝨	蝮	蝙
74	6A	蝓	蝣	蝪	蠅	螢	螟	螂	螯	蟋	螽	蟀	蟐	雖	螫	蟄	螳	蟇	蟆	螻	蟯	蟲	蟠	蠏	蠍	蟾	蟶	蟷	蠎	蟒	蠑	蠖	蠕	蠢	蠡	蠱	蠶	蠹	蠧	蠻	衄	衂	衒	衙	衞	衢	衫	袁	衾	袞	衵	衽	袵	衲	袂	袗	袒	袮	袙	袢	袍	袤	袰	袿	袱	裃	裄	裔	裘	裙	裝	裹	褂	裼	裴	裨	裲	褄	褌	褊	褓	襃	褞	褥	褪	褫	襁	襄	褻	褶	褸	襌	褝	襠	襞
75	6B	襦	襤	襭	襪	襯	襴	襷	襾	覃	覈	覊	覓	覘	覡	覩	覦	覬	覯	覲	覺	覽	覿	觀	觚	觜	觝	觧	觴	觸	訃	訖	訐	訌	訛	訝	訥	訶	詁	詛	詒	詆	詈	詼	詭	詬	詢	誅	誂	誄	誨	誡	誑	誥	誦	誚	誣	諄	諍	諂	諚	諫	諳	諧	諤	諱	謔	諠	諢	諷	諞	諛	謌	謇	謚	諡	謖	謐	謗	謠	謳	鞫	謦	謫	謾	謨	譁	譌	譏	譎	證	譖	譛	譚	譫
76	6C	譟	譬	譯	譴	譽	讀	讌	讎	讒	讓	讖	讙	讚	谺	豁	谿	豈	豌	豎	豐	豕	豢	豬	豸	豺	貂	貉	貅	貊	貍	貎	貔	豼	貘	戝	貭	貪	貽	貲	貳	貮	貶	賈	賁	賤	賣	賚	賽	賺	賻	贄	贅	贊	贇	贏	贍	贐	齎	贓	賍	贔	贖	赧	赭	赱	赳	趁	趙	跂	趾	趺	跏	跚	跖	跌	跛	跋	跪	跫	跟	跣	跼	踈	踉	跿	踝	踞	踐	踟	蹂	踵	踰	踴	蹊
77	6D	蹇	蹉	蹌	蹐	蹈	蹙	蹤	蹠	踪	蹣	蹕	蹶	蹲	蹼	躁	躇	躅	躄	躋	躊	躓	躑	躔	躙	躪	躡	躬	躰	軆	躱	躾	軅	軈	軋	軛	軣	軼	軻	軫	軾	輊	輅	輕	輒	輙	輓	輜	輟	輛	輌	輦	輳	輻	輹	轅	轂	輾	轌	轉	轆	轎	轗	轜	轢	轣	轤	辜	辟	辣	辭	辯	辷	迚	迥	迢	迪	迯	邇	迴	逅	迹	迺	逑	逕	逡	逍	逞	逖	逋	逧	逶	逵	逹	迸
78	6E	遏	遐	遑	遒	逎	遉	逾	遖	遘	遞	遨	遯	遶	隨	遲	邂	遽	邁	邀	邊	邉	邏	邨	邯	邱	邵	郢	郤	扈	郛	鄂	鄒	鄙	鄲	鄰	酊	酖	酘	酣	酥	酩	酳	酲	醋	醉	醂	醢	醫	醯	醪	醵	醴	醺	釀	釁	釉	釋	釐	釖	釟	釡	釛	釼	釵	釶	鈞	釿	鈔	鈬	鈕	鈑	鉞	鉗	鉅	鉉	鉤	鉈	銕	鈿	鉋	鉐	銜	銖	銓	銛	鉚	鋏	銹	銷	鋩	錏	鋺	鍄	錮
79	6F	錙	錢	錚	錣	錺	錵	錻	鍜	鍠	鍼	鍮	鍖	鎰	鎬	鎭	鎔	鎹	鏖	鏗	鏨	鏥	鏘	鏃	鏝	鏐	鏈	鏤	鐚	鐔	鐓	鐃	鐇	鐐	鐶	鐫	鐵	鐡	鐺	鑁	鑒	鑄	鑛	鑠	鑢	鑞	鑪	鈩	鑰	鑵	鑷	鑽	鑚	鑼	鑾	钁	鑿	閂	閇	閊	閔	閖	閘	閙	閠	閨	閧	閭	閼	閻	閹	閾	闊	濶	闃	闍	闌	闕	闔	闖	關	闡	闥	闢	阡	阨	阮	阯	陂	陌	陏	陋	陷	陜	陞
80	70	陝	陟	陦	陲	陬	隍	隘	隕	隗	險	隧	隱	隲	隰	隴	隶	隸	隹	雎	雋	雉	雍	襍	雜	霍	雕	雹	霄	霆	霈	霓	霎	霑	霏	霖	霙	霤	霪	霰	霹	霽	霾	靄	靆	靈	靂	靉	靜	靠	靤	靦	靨	勒	靫	靱	靹	鞅	靼	鞁	靺	鞆	鞋	鞏	鞐	鞜	鞨	鞦	鞣	鞳	鞴	韃	韆	韈	韋	韜	韭	齏	韲	竟	韶	韵	頏	頌	頸	頤	頡	頷	頽	顆	顏	顋	顫	顯	顰
81	71	顱	顴	顳	颪	颯	颱	颶	飄	飃	飆	飩	飫	餃	餉	餒	餔	餘	餡	餝	餞	餤	餠	餬	餮	餽	餾	饂	饉	饅	饐	饋	饑	饒	饌	饕	馗	馘	馥	馭	馮	馼	駟	駛	駝	駘	駑	駭	駮	駱	駲	駻	駸	騁	騏	騅	駢	騙	騫	騷	驅	驂	驀	驃	騾	驕	驍	驛	驗	驟	驢	驥	驤	驩	驫	驪	骭	骰	骼	髀	髏	髑	髓	體	髞	髟	髢	髣	髦	髯	髫	髮	髴	髱	髷
82	72	髻	鬆	鬘	鬚	鬟	鬢	鬣	鬥	鬧	鬨	鬩	鬪	鬮	鬯	鬲	魄	魃	魏	魍	魎	魑	魘	魴	鮓	鮃	鮑	鮖	鮗	鮟	鮠	鮨	鮴	鯀	鯊	鮹	鯆	鯏	鯑	鯒	鯣	鯢	鯤	鯔	鯡	鰺	鯲	鯱	鯰	鰕	鰔	鰉	鰓	鰌	鰆	鰈	鰒	鰊	鰄	鰮	鰛	鰥	鰤	鰡	鰰	鱇	鰲	鱆	鰾	鱚	鱠	鱧	鱶	鱸	鳧	鳬	鳰	鴉	鴈	鳫	鴃	鴆	鴪	鴦	鶯	鴣	鴟	鵄	鴕	鴒	鵁	鴿	鴾	鵆	鵈
83	73	鵝	鵞	鵤	鵑	鵐	鵙	鵲	鶉	鶇	鶫	鵯	鵺	鶚	鶤	鶩	鶲	鷄	鷁	鶻	鶸	鶺	鷆	鷏	鷂	鷙	鷓	鷸	鷦	鷭	鷯	鷽	鸚	鸛	鸞	鹵	鹹	鹽	麁	麈	麋	麌	麒	麕	麑	麝	麥	麩	麸	麪	麭	靡	黌	黎	黏	黐	黔	黜	點	黝	黠	黥	黨	黯	黴	黶	黷	黹	黻	黼	黽	鼇	鼈	皷	鼕	鼡	鼬	鼾	齊	齒	齔	齣	齟	齠	齡	齦	齧	齬	齪	齷	齲	齶	龕	龜	龠
84	74	堯	槇	遙	瑤	凜	熙
85	75
86	76
87	77
88	78
89	79
90	7A
91	7B
92	7C
93	7D
94	7E

その後、1990年に JIS X 0212 という94区94点の文字集合規格が制定されました。これは通称補助漢字と呼ばれています。

2000年には JIS X 0213 という2面94区94点の文字集合規格が制定されました。第1面は、JIS X 0208 を元に、未定義領域に第3水準の漢字が加えられています。第2面には、第4水準の漢字があります。

日本語文字コード

目次へ↑

日本語は、ひらがな、カタカナ、漢字と沢山の文字を必要とします。日本でコンピュータが普及していくと共に、たくさんの種類の文字コードが開発されました。

前節の JIS X 0208 の区点は「文字集合」と呼ばれるものです。この文字集合を「どのように2進数のバイトコードに割り振るか」ということを符号化といいます。符号化が完了した文字情報が「文字コード」です。様々な符号化の中で「JISコード」「シフトJISコード」「EUCコード」の3種類が日本でよく使われるようになりました。処理のしやすさや、通信のしやすさなど、一長一短があるだけでなく、歴史的背景も加わり現在も混在してる状況です。メールやホームページの文字化けの原因になったり、ファイル名に日本語を使うと他のパソコンではそのファイル名が文字化けして仕事にならないことがあったりします。

文字コードの変換

文字コードの変換には変換ツールを使う方法があります。「nkf」や「iconv」などが有名です。テキストエディタの中には好きな文字コードに変換して、ファイルを保存できるものがあります。

Web 上で手軽に確認できるツールに文字コードの16進ダンプがあります。とりあえずはこれを試してみると良いでしょう。

JISコード

次の文字列で黒字は1バイト文字、青字の部分が2バイト文字です。

エスケープシーケンスが現れたら、それ以降のGL集合を次のような符号化文字集合に置き換えます。文字列表現は16進表現をASCII文字列で表現したものです。「1B」はアスキー制御コードの「ESC」でそれに続く文字列によってどの集合に切り替えるかを指定します。

16進表現	文字列表現	符号化文字集合
1B 28 42	ESC ( B	ISO/IEC 646(ASCII)
1B 28 4A	ESC ( J	JIS X 0201 ラテン(半角英数)
1B 28 49	ESC ( I	JIS X 0201 カナ(半角カナ)
1B 24 40	ESC $ @	JIS C 6226-1978(第1・第2水準漢字)
1B 24 42	ESC $ B	JIS X 0208-1983(第1・第2水準漢字)
1B 24 40 1B 24 42	ESC $ @ ESC $ B	JIS X 0208-1990(第1・第2水準漢字)
1B 24 28 44	ESC $ ( D	JIS X 0212-1990(補助漢字)
1B 24 28 4F	ESC $ ( O	JIS X 0213:2000 1面(第1・第2水準漢字)
1B 24 28 51	ESC $ ( Q	JIS X 0213:2004 1面(第1・第2水準漢字)
1B 24 28 50	ESC $ ( P	JIS X 0213:2000 2面(第3・第4水準漢字)

JISコードは文字集合を切り替えるたびにエスケープシーケンスが入るので、バイト列が長くなります。 8ビットJISの半角カナを使わなければ、最上位ビットが必ず0になるので、電子メールの通信に最適です。

以下、1バイト、2バイトのどの位置に文字集合があるかの図になります。 JIS区点文字集合の区と点に16進数で20（10進数で32）を足すと、第1バイトとの第2バイトのコードがすぐに計算できます。

EUCコード

次の文字列で黒字は1バイト文字、青字の部分が2バイト文字です。

以下、1バイト、2バイトのどの位置に文字集合があるかの図になります。 JIS区点文字集合の区と点に16進数でA0（10進数で160）を足すと、第1バイトとの第2バイトのコードがすぐに計算できます。第1バイトが「8E」の時は半角カナ文字になります。第1バイトが「8F」の時は、「A1～FE」の2バイトを合わせた3バイトで補助漢字の94×94の文字集合を呼び出します。第3水準、第4水準漢字は EUC-JIS-2004 で扱えるようになりました。

シフトJISコード

次の文字列で黒字は1バイト文字、青字の部分が2バイト文字です。

以下、1バイト、2バイトのどの位置に文字集合があるかの図になります。バイトの最上位ビットが0ならASCII文字、最上位ビットが1なら日本語文字になります。「A1～DF」なら半角カナが確定するように、JIS区点コードの第1バイトが半角カナに被らないようになってます。 JIS区点文字集合を4つの領域に分けて以下の図のように配置します。計算式で表すと、次のようになります。
第1バイトの計算
(区－1)÷2 を行って小数点以下を切り捨てる

Unicode

目次へ↑

Unicode（ユニコード）登場以前は、国ごとや言語ごとにばらばらに文字コードを定めていました。インターネット社会が世界中に広がり、様々な国との情報のやり取りも重要になってきました。 1980年代にゼロックス社が提唱し、マイクロソフト、アップル、IBM等が参加するユニコードコンソーシアムが1991年に設立されました。 1993年に国際規格ISO/IEC 10646が作られ標準化されました。

Unicodeは策定当初、2バイト（2¹⁶=16⁴=65536ビット）で十分だと考え、固定長2バイトで世界中の文字の全てを納める計画でした。日本語の文字コードの1バイトと2バイトの可変長の経験から、可変長の文字コードの扱いは面倒であることが分かっていたからです。日本語の漢字は第1水準、第2水準合わせて6千文字程度で、日中韓を合わせても2万文字程度で済み、まだ3万文字程度の余裕があると考えられていました。更に文字を追加するために言語学者にも参画してもらったところ、マイナーな文字が次々と出てきて固定長2バイトにすることをあきらめました。現在では日本の携帯電話文化で広まった絵文字も次々と収録されています。

文字集合 UCS

キャラクターセット（文字集合）とは JIS X 208 のような文字集合のことです。 JIS X 208 では文字集合を10進数の区・点のマトリックスで管理していました。 JIS X 213 では文字集合を2面に拡張し、面・区・点で管理していました。ユニコードでは文字集合を16進数のコードポイントというもので管理しています。 UCS-2では16進数で4桁のコードポイントが割り振られていて、コードポイントは U+XXXX （XXXXは16進数4桁）で表現されます。 UCS-4では16進数で8桁のコードポイントが割り振られています。

キャラクターセット（文字集合）には以下のものがあります。

ユニコードのコードポイントはユニコードコンソーシアムの [The Unicode Standard] → [Code Charts] に載っています。例えば、日中韓の共通漢字は [East Asian Scripts] のカテゴリーにある CJK Unified Ideographs (Han) (35MB) のフォント埋め込み PDF ファイルを見ることで、16進数表示のコードポイントと、中国（C)、日本（J）、韓国（K）の字形が分かります。顔文字は [Emoji & Pictographs] にある Emoticons にあります。

PDF ファイルは使いにくいので、Wikipedia の Unicode一覧表を利用するのも良いでしょう、自分の端末にフォントが入っていれば、コードポイントと字形の対応が分かります。日中韓の共通漢字は 3000-9FFF に、絵文字は 1F000-1FFFF にあります。フォントがないコードは通称「豆腐」と呼ばれている「□」が表示されます。他にも「Unicode 一覧」で検索すると様々な表が出てきます。こちらの Unicode表では JIS X 0208 の文字と、JIS X 0213 で追加された文字、が色分けされています。

範囲	説明
U+0000～U+007F	ASCII文字
U+0080～U+00FF	Latin-1文字
U+0100～U+2FFF	ギリシア文字やアラビア文字など
U+3000～U+3FFF	ひらがな、カタカナなど
U+3000～U+303F	郵便マーク等の特殊記号
U+3040～U+309F	ひらがな
U+30A0～U+30FF	カタカナ
U+4000～U+9FFF	中国・日本・韓国の漢字など
U+A000～U+DFFF	ハングルなど
U+F000～U+FFFF	漢字、全角英数字、半角カナなど
U+010000～U+10FFFF	拡張文字。使用頻度の低い漢字など
U+00110000～U+FFFFFFFF	未使用

符号化方法 UTF

符号化（エンコーディング）とは「文字集合からどのようにして、実際にコンピュータで利用するデータ列（バイト列）に変換するか」というやり方のことです。

ユニコードの符号化方法には以下のものがあります。（他にもありますが代表的なものです。）

エンディアン（バイトオーダー）

バイトオーダー（byte order）とはバイト列を実際にメモリや磁気ディスクに格納する順番のことで、ビッグエンディアンとリトルエンディアンの2種類があります。エンディアン（Endian）とは「ガリバー旅行記」のエピソードに由来する言葉で、卵を丸い側（大きい方）の端から割る人々 (Big Endians) と、尖った側（小さい方）の端から割る人々(Little Endians) との対立が語源です。 CPUのレジスタの設計によって、どちらの順でデータを処理するのか変わります。 Intel系のCPUを使っているのが多数派ですので、特殊な事情がない限り、リトルエンディアンを使うのが良いでしょう。

符号化の仕組み

オンラインにあるUnicode文字ツールで様々な文字のコードポイント（文字番号）や文字コードを調べることができます。以下の表は適当な文字のコードポイントと符号化を調べたものです。有効ビット数の分類は後のUTF-8の説明で使います。

有効ビット数	文字	コードポイント	UTF-32BE	UTF-16BE	UTF-8	UTF-16LE	UTF-32LE
7	6	U+0036	00 00 00 36	00 36	36	36 00	36 00 00 00
	\	U+005C	00 00 00 5C	00 5C	5C	5C 00	5C 00 00 00
	a	U+0061	00 00 00 61	00 61	61	61 00	61 00 00 00
11	Á	U+00C1	00 00 00 C1	00 C1	C3 81	C1 00	C1 00 00 00
	α	U+03B1	00 00 03 B1	03 B1	CE B1	B1 03	B1 03 00 00
	Д	U+0414	00 00 04 14	04 14	D0 94	14 04	14 04 00 00
16	あ	U+3042	00 00 30 42	30 42	E3 81 82	42 30	42 30 00 00
	愛	U+611B	00 00 61 1B	61 1B	E6 84 9B	1B 61	1B 61 00 00
		U+FEFF	00 00 FE FF	FE FF	EF BB BF	FF FE	FF FE 00 00
	ｱ	U+FF71	00 00 FF 71	FF 71	EF BD B1	71 FF	71 FF 00 00
21	😁	U+1F601	00 01 F6 01	D8 3D DE 01	F0 9F 98 81	3D D8 01 DE	01 F6 01 00
	😭	U+1F62D	00 01 F6 2D	D8 3D DE 2D	F0 9F 98 AD	3D D8 2D DE	2D F6 01 00
	慈	U+2F8A6	00 02 F8 A6	D8 7E DC A6	F0 AF A2 A6	7E D8 A6 DC	A6 F8 02 00

UTF-32

UTF-32 ではコードポイントをそのまま4バイトの固定長で符号化します。ビッグエンディアンではそのまま、第1バイト、第2バイト、第3バイト、第4バイト、の順番です。リトルエンディアンでは逆順の、第4バイト、第3バイト、第2バイト、第1バイト、の順番です。全ての文字が4バイトになるので、データサイズは大きくなります。

UTF-16

UTF-16 では2バイト（16ビット）までのコードポイントでは、コードポイントをそのまま2バイトの固定長で符号化します。ビッグエンディアンではそのまま、第1バイト、第2バイト、の順番です。リトルエンディアンでは逆順の、第2バイト、第1バイト、の順番です。

コードポイント	UTF-32BE	UTF-32LE
U+WWXXYYZZ	WW XX YY ZZ	ZZ YY XX WW

コードポイント	UTF-16BE	UTF-16LE
U+XXYY	XX YY	YY XX

ユニコードは当初は2バイト固定長で全ての文字を表す予定でしたが、2バイト（16ビット）では足りなくなって21ビット拡張というものを行いました。 17～21ビットで表現できるコードポイント、U+10000 ～ U+10FFFF の領域までの拡張です。これは、新たに plane（面）を16面拡張したことに相当します。

UTF-16 ではサロゲートペア（surrogate pair：代理対）という符号化を行い、4バイト（2バイト2文字）で拡張領域のコードポイントを符号化します。リトルエンディアンでは2文字扱いでバイト列を入れ替えることになります。次の表は、元コードのビット表示から、どのようなやり方でサロゲートペア2文字に変換するかの説明です。

元コードポイント（ビット表示）	1文字目	2文字目	備考
xxxxxyyyyyyzzzzzzzzzz	110110wwwwyyyyyy	110111zzzzzzzzzz	wwww = xxxxx-1

文字	元コードポイント	1文字目	2文字目	備考
	x xxxx yyyy yyzz zzzz zzzz	1101 10ww wwyy yyyy	1101 11zz zzzz zzzz	wwww = xxxxx-1
😁	0 0001 1111 0110 0000 0001 U+01F601	1101 1000 0011 1101 D8 3D	1101 1110 0000 0001 DE 01	0000 = 00001-1
😭	0 0001 1111 0110 0010 1101 U+01F62D	1101 1000 0011 1101 D8 3D	1101 1110 0010 1101 DE 2D	0000 = 00001-1
慈	0 0010 1111 1000 1010 0110 U+02F8A6	1101 1000 0111 1110 D8 7E	1101 1100 1010 0110 DC A6	0001 = 00010-1

UTF-8

UTF-8 では ASCIIコードとの互換性を保つために可変長の符号化を行います。以下のようにコードポイントの範囲によって、符号化後の文字サイズが違います。

コードポイント範囲	有効ビット数	元コードポイント（ビット表示）	変換方法	1バイト目	2バイト目	3バイト目	4バイト目
U+0000～U+007F	7	xxxxxxx	1バイト化	0xxxxxxx
U+0080～U+07FF	11	xxxxxyyyyyy	2バイト化	110xxxxx	10yyyyyy
U+0800～U+FFFF	16	xxxxyyyyyyzzzzzz	3バイト化	1110xxxx	10yyyyyy	10zzzzzz
U+10000～U+1FFFFF	21	xxxyyyyyyzzzzzzwwwwww	4バイト化	11110xxx	10yyyyyy	10zzzzzz	10wwwwww

次の表は、有効ビット7桁の場合、どのように符号化して1バイト化するのか、の例です。

文字	元コードポイント	1バイト目
	xxx xxxx	0xxx xxxx
6	011 0110 U+0036	0011 0110 36
\	101 1100 U+005C	0101 1100 5C
a	110 0001 U+0061	0110 0001 61

次の表は、有効ビット11桁の場合、どのように符号化して2バイト化するのか、の例です。

文字	元コードポイント	1バイト目	2バイト目
	xxx xxyy yyyy	110x xxxx	10yy yyyy
Á	000 1100 0001 U+00C1	1100 0011 C3	1000 0001 81
α	011 1011 0001 U+03B1	1100 1110 CE	1011 0001 B1
Д	100 0001 0100 U+0414	1101 0000 D0	1001 0100 94

次の表は、有効ビット16桁の場合、どのように符号化して3バイト化するのか、の例です。コードポイント U+FEFF の文字は、後で説明するBOMとして使われるようになった、ゼロ幅ノーブレークスペース（ZWNBSP: zero width no-break space）というものです。

文字	元コードポイント	1バイト目	2バイト目	3バイト目
	xxxx yyyy yyzz zzzz	1110 xxxx	10yy yyyy	10zz zzzz
あ	0011 0000 0100 0010 U+3042	1110 0011 E3	1000 0001 81	1000 0010 82
愛	0110 0001 0001 1011 U+611B	1110 0110 E6	1000 0100 84	1001 1011 9B
	1111 1110 1111 1111 U+FEFF	1110 1111 EF	1011 1011 BB	1011 1111 BF
ｱ	1111 1111 0111 0001 U+FF71	1110 1111 EF	1011 1101 BD	1011 0001 B1

次の表は、有効ビット21桁の場合、どのように符号化して4バイト化するのか、の例です。

文字	元コードポイント	1バイト目	2バイト目	3バイト目	4バイト目
	x xxyy yyyy zzzz zzww wwww	1111 0xxx	10yy yyyy	10zz zzzz	10ww wwww
😁	0 0001 1111 0110 0000 0001 U+01F601	1111 0000 F0	1001 1111 9F	1001 1000 98	1000 0001 81
😭	0 0001 1111 0110 0010 1101 U+01F62B	1111 0000 F0	1001 1111 9F	1001 1000 98	1010 1101 AD
慈	0 0010 1111 1000 1010 0110 U+02F8A6	1111 0000 F0	1010 1111 AF	1010 0010 A2	1010 0110 A6

UTF-8 では日本語の文字の殆どは3バイトになります。 UTF-16 では日本語の文字は殆ど2バイトです。データ量を少なくするには、日本語交じりのプログラミングやHTMLファイルなどを書くときは UTF-8 が良いでしょうし、日本語のみの長文では UTF-16 が良いでしょう。

BOM（Byte Order Mark）

バイトオーダー等の符号化情報をファイルの読み込み時に判断できるように、ファイルの先頭に埋め込んだバイトコードのことをボム（BOM: Byte Order Mark）といいます。

符号化形式	BOM	解釈
UTF-32BE	なし	Big Endian
UTF-32LE	なし	Little Endian
UTF-32	00 00 FE FF	Big Endian
UTF-32	FF FE 00 00	Little Endian
UTF-16BE	なし	Big Endian
UTF-16LE	なし	Little Endian
UTF-16	FE FF	Big Endian
UTF-16	FF FE	Little Endian
UTF-8	なし	BOMなしは UTF-8N と呼ばれることがある
UTF-8	EF BB BF

Windows のメモ帳では常にBOMを付ける仕様になっています。ファイルを Unicode 形式や UTF-8 で保存してバイナリを確認してみてください。 Unicode 形式で保存するとファイルの先頭に「FF FE」がつきます。 UTF-8 形式で保存するとファイルの先頭に「EF BB BF」がつきます。 BOMの付ける付けないを切り替えられるテキストエディタを使うことをお勧めします。

例えば、次の文章の16進ダンプを様々な符号化形式でみてみましょう。一文字に対応するコードに背景色を付けます。

Windows メモ帳

目次へ↑

Windows OS に標準で付属のソフト（アプリ）を「アクセサリ」といいます。アクセサリの中に「メモ帳」又は「notepad」というソフトがあります。これはテキストエディタと呼ばれるソフトで、ワープロのような文字の装飾などがない「プレーンテキスト」と呼ばれる文章を編集するソフトです。純粋な文字データのみを編集し、保存するソフトになります。

Windows 10 に付属の「メモ帳」は保存する際、次の4つの文字コードが選択できます。

全角文字 半角文字 文字コード

7ビット半角カナ

8ビット半角カナ

文字コードの変換

JISコード

EUCコード

シフトJISコード

文字集合 UCS

符号化方法 UTF

エンディアン（バイトオーダー）

符号化の仕組み

UTF-32

UTF-16

UTF-8

BOM（Byte Order Mark）

全角文字半角文字文字コード