@felis_silv はい,「PDFを出力するソフトウェアが /ToUnicodeCMap を出力するときに,ユーザの原稿で U+2FA7〈⾧〉が一度も使われていないことを根拠に,該当GIDに U+9577〈長〉を紐づけるという判断をしてもよいのではないか」という指摘であれば,仰る通りだと思います
2025-07-18 00:48:56@bd_gfngfn それくらいやってもいいんじゃないかと思うんですが、欧米圏だとこの問題の重大さに気付きづらいのかなー、と思ってます
@felis_silv 欧州でもラテン文字の U+0041〈A〉とキリル文字の U+0410〈А〉とが同一のGIDに紐づいているフォントなどはありふれているはずなのでもっと問題として意識されていても良い気がしますが不思議ですね(ちなみに拙作のSATySFiだと /ToUnicodeCMap 出力時にそのような処理をちゃんとやってます)
@bd_gfngfn 素晴らしいです!(確かに適切な逆変換テーブルを作るためにメモリもCPUも若干喰うけど、今時誤差の範囲内でしょうし、みんなちゃんと実装しようよ。。
PDF作成時の文字化けをなんとかするツール
リンク
GitHub
GitHub - yamamaya/radicalchar: 部首文字正規化ライブラリ
部首文字正規化ライブラリ. Contribute to yamamaya/radicalchar development by creating an account on GitHub.
@felis_silv このツールで文字化けしないPDFへ変換できるようですが、どうでしょうか? github.com/trueroad/pdf-f…
2025-07-18 17:06:04
リンク
GitHub
GitHub - trueroad/pdf-fix-tuc: Fix ToUnicode CMap in PDF
Fix ToUnicode CMap in PDF. Contribute to trueroad/pdf-fix-tuc development by creating an account on GitHub.
2 users
14
そうだったのか! 5年ぐらい前、長野県の長がU+2FA7〈⾧〉になった謎データが大量にシステムに叩き込まれて、情シスさんが可哀そうな目にあってた原因はこれだろうな
これフォントによって 「見た目で全く見分けつかないのに内部的には違う文字だから検索できなくなって困る」のと 「PDFからコピペした文字の一部が明らかに変な見た目で表示されちゃうから置換しなきゃならなくて面倒」 が両方発動するからかなり困るんだよな…… 大雑把な人が明らかに変な見た目で表示された奴をお客さんに渡して向こうを不安にさせちゃうみたいなこともあるし