Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは？

お判りいただけるだろうか。これが Microsoft Print to PDF による文字化けである。。。なお、これMicrosoftだけじゃなくてほとんどあらゆるメーカーがやらかしてる。日本人なら気づくけど他の国の人に判りづらい問題。。。 pic.x.com/4Icgimi2I7

2025-07-15 21:56:42

社畜 @leemanoid

ExcelからPDFに出力するときも「印刷→Microsoft Print to PDF」ではなく「エクスポート→PDFの作成」にしないと、ぱっと見は同じでも色々と変な出力結果になると聞いたことがある x.com/felis_silv/sta…

2025-07-16 12:00:52

『長』ってUnicodeだと実は3種類あって・・・

@felis_silv 実質同じ文字がいくつかにばらけて登録されてたりするからなｗ　でWindows側でこのユニコード１つ１つに描画するフォントが設定されていて、中国語しか使わない長だと中国語フォントで描画されてしまうという。。。知らなきゃ踏むよねｗ

2025-07-15 22:10:42

@Searcholic_JP 実質同じ、ってわけじゃないんですｗ同じに見える別の文字がunicodeに三つくらいあって、PDF化するアプリがなぜか間違ってマッピングしてるという。。。「⻑」（CJK部首補助）「⾧」（康煕部首）「長」（漢字）

2025-07-15 22:15:20

@felis_silv ええ。えっと文字の原義として意味が同じということを言いたかったです。（どれもlongの意味を表す文字。もちろん長い歴史の中で意味が変わっている文字もあるでしょう）で長の場合は部首の区別のためのUnicodeが与えられていたんですね。で非漢字圏の方には部首の文字と通常の文字は分けるというのも難しい概念ですよね。

2025-07-15 22:56:28

@Searcholic_JP そもそも部首単体を扱うことなんて絶対にないと思うのに、なんでunicodeに組み込んでしまったのか、それがすべての問題の根源。。。ｗ

2025-07-15 23:01:43

@felis_silv どう考えてもコードポイント足りないから、組み合わせて文字にするとか考えてたんですかね？なんかそういうことをするためのUnicodeがあった気がするので。この辺かな？漢字記述言語 weblio.jp/content/%E6%BC…

2025-07-15 23:06:43

リンク www.weblio.jp 漢字記述言語とは - わかりやすく解説 Weblio辞書漢字記述言語とは? 漢字記述言語は、漢字（CJKV漢字）と、その構成要素の一覧、筆画（基本筆画・複合筆画）の一覧、筆順、方形のマス目中に各筆画が配される位置といった漢字の情報を、正確かつ完全に記述する目的で提案されている...

@Searcholic_JP あー、そういや、⿳とか⿱とか、プレイスホルダー文字ありますねｗそういうところで使うやつだったのかｗ

2025-07-15 23:09:44

@felis_silv 他、検索とかでしょうねｗ　辞書の部首索引の逆的な使い方？ jstage.jst.go.jp/article/konpyu…

2025-07-15 23:11:52

@Searcholic_JP たしかにｗでもそれなら一般的な文字のほうに統一して、該当する文字がない部首だけ部首専用に作成すればよかったのにｗ

2025-07-15 23:16:15

いわかた @yottaburger

@felis_silv あっCJK部首補助だか康煕部首だかに化けるやつだ！昔パターンマッチでもとに戻す力技メソッド作ったことあります笑

2025-07-18 18:17:56

元画像は「⾧」（康煕部首）

kusanoさん@がんばらない @kusano_k

康煕部首だ。中国語フォントが使われるとかいう話ではなく、PDFは実はテキストデータを陽には持っていないという話があるらしい。 PDFのコピペが文字化けするのはなぜか？～CID/GIDと原ノ味フォント～ | PDF slideshare.net/slideshow/pdfc… pic.x.com/hXmVyN3sDX x.com/felis_silv/sta…

2025-07-18 00:32:05

リンク SlideShare PDFのコピペが文字化けするのはなぜか？～CID/GIDと原ノ味フォント～ NTT Tech Conference #5 Presentation - Download as a PDF, PPTX or view online for free 303 users

PDFの仕様欠陥なのでは？

（引用失礼します）この現象，説明すると長くなるけれども実はほとんどの場合はPDFを書き出すソフトウェアの不備ではなくPDFの仕様に潜む本質的な缺陥が原因なんですよね x.com/felis_silv/sta…

2025-07-18 00:03:22

- 各フォントはそのフォント内でのみ通用するGID（glyph ID）と呼ばれる番号でグリフ（図形文字）を管理しており，UnicodeコードポイントからGIDへマップする cmap と呼ばれるテーブルを持っている - PDFは（方式によるがほとんどの場合は）GIDの列をテキスト情報として保持しており，（続く）

2025-07-18 00:20:43

（承前）例えばPDFヴューワがPDFを表示するときはそれらのGIDで埋め込まれたフォントを表引きすることによってグリフの曲線のデータを得ている - PDFヴューワ上でテキストを選択しコピーして得られる文字列は，GID列からUnicodeコードポイント列へと逆変換して得られている．この時に（続く）

2025-07-18 00:20:44

（承前）使われるのがPDF中に埋め込まれている /ToUnicodeCMap という機構で，大雑把に言えば cmap の逆写像にあたるものをPDF出力プログラムが書き込む箇所 - しかし，元々フォントファイルにあった cmap は必ずしも単射とは限らず，相異なるUnicodeコードポイントに同一のグリフが（続く）

2025-07-18 00:20:44

（承前）割り当てられて同一のGIDが紐づいていることがあり，一般にはGIDから元のコードポイントが正確には復元できない - 一部フォントは例えば U+9577〈長〉と U+2FA7〈⾧〉（康煕部首）に同一のGIDを割り当てており，そうしたフォントを使うとコードポイントが一意に復元できない（続く）

2025-07-18 00:20:45

（承前） - 一応PDFの仕様として /ActualText というUnicodeコードポイント列を陽に書いておくことができる仕組みがあり，これにより問題が回避できるが，わざわざこれを出力してくれるプログラムはおそらく多くない

2025-07-18 00:20:45