1. Qiita
  2. 投稿
  3. UTF-8

絶対にUTF-8の1バイト目にならない文字一覧

  • 23
    いいね
  • 0
    コメント
文字の範囲 1バイト目になる 備考
0x00 - 0x7F 1バイト文字そのもの      
0x80 - 0xBF - 2-4バイト文字の2バイト目以降でのみ出現
0xC0 - 0xC1 - 冗長表現を許さないのであれば絶対に出現しない
0xC2 - 0xDF 2バイト文字の1バイト目
0xE0 - 0xEF 3バイト文字の1バイト目
0xF0 4バイト文字の1バイト目
0xF1 - 0xF4 - 追加面第4面から第16面の1バイト目に対応、通常は出現しない
0xF5 - 0xFF - UTF-8として絶対に出現しない

つまり、UTF-8の1バイト目になり得る文字は0x00-0x7Fおよび0xC2-0xF0の175文字、なり得ない文字は残りの81文字。