パスワードを忘れた? アカウント作成
11207872 journal
日記

yasuokaの日記: デジタル・フォレンジックにおける漢字コード

日記 by yasuoka

『行政情報処理用漢字コードの現状』(日経ITpro、2014年6月30日~7月4日)の読者から、絹川博之の「日本語処理の歴史的経緯と日本語処理解析性能評価分科会設置の趣旨」(IDFコラム, 第314号, 2014年6月5日)を読んでほしい、との連絡をいただいた。デジタル・フォレンジック研究会が日本語処理解析性能評価分科会を設置するにあたり、デジタル・フォレンジックにおける日本語処理の概要を論じた文章らしいのだが、だとすると内容が変だ。たとえば、シフトJISとEUCに関する以下のくだり。

シフトJISは、左端ビットが‘0’の時ASCIIコードを、‘1’の時2バイトコードとして漢字を最大8836字収容可能であり、EUCは、3バイト可変で最大14637字(=8836+5801)収容可能であるが、いずれも収容文字の拡張が不可能なコード系であった。

シフトJISの2バイトコード部分は、設計当初から(15+32+13)×(63+125)という変態的な構造を持っていて、11280字を収容可能である。この結果、今も、いわゆるIBM外字に悩まされているわけだ。一方EUCは、定義上は94×94の文字表3枚とか、あるいは94×94×94の文字表もアリなのだが、まあ94×94が2枚としても17672字は収容できる。なぜ、ここに「5801」なんて素数が出てくるのか、私(安岡孝一)にはイマイチ理解できない。

あるいは、UTF-16に関する以下のくだり。

2バイトを単位として符号化し、一部をその2単位(=4バイト)で符号化するUTF-16 (Unicode Transformation Format 16)では、1,048,576字を割付け可能で、世界中のほとんどの文字の符号化を可能としている。

U+0000~U+10FFFFなので、とりあえずは1114112字なんだけど。そこから、サロゲートペアに使う2048字を除いたとしても、1112064字。どうも数が合わない。

ただ、正直なところ、デジタル・フォレンジックにおける日本語処理という視点だと、シフトJISやUnicodeなんかより、Adobe-Japan1が圧倒的に手ごわいように思える。CIDフォント埋め込みPDFが一部破壊されると、まず復活は無理だったりする。まあ、「メーカー独自コード」の一種だということにして、見なかったことにしてしまいたい気持ちも、わからなくはないが。

この議論は、yasuoka (21275)によって「 ログインユーザだけ」として作成されている。 ログインしてから来てね。
typodupeerror

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

読み込み中...