Tsuchinokovskialleum774ridernekomori7741983Ytosa_nukonoieshota243younji_TPrafalegirlhnagoyaHariHaraTwitktmizugakisinarumintsuyoshi_chotetsujikuno
99
画力・博士号・油田 @bd_gfngfn

@felis_silv はい,「PDFを出力するソフトウェアが /ToUnicodeCMap を出力するときに,ユーザの原稿で U+2FA7〈⾧〉が一度も使われていないことを根拠に,該当GIDに U+9577〈長〉を紐づけるという判断をしてもよいのではないか」という指摘であれば,仰る通りだと思います

2025-07-18 00:48:56
やまねこ⚙楢ノ木技研 @felis_silv

@bd_gfngfn それくらいやってもいいんじゃないかと思うんですが、欧米圏だとこの問題の重大さに気付きづらいのかなー、と思ってます😅

2025-07-18 00:50:53
画力・博士号・油田 @bd_gfngfn

@felis_silv 欧州でもラテン文字の U+0041〈A〉とキリル文字の U+0410〈А〉とが同一のGIDに紐づいているフォントなどはありふれているはずなのでもっと問題として意識されていても良い気がしますが不思議ですね(ちなみに拙作のSATySFiだと /ToUnicodeCMap 出力時にそのような処理をちゃんとやってます😎

2025-07-18 01:07:09
やまねこ⚙楢ノ木技研 @felis_silv

@bd_gfngfn 素晴らしいです!🤩(確かに適切な逆変換テーブルを作るためにメモリもCPUも若干喰うけど、今時誤差の範囲内でしょうし、みんなちゃんと実装しようよ。。😅

2025-07-18 02:24:37

PDF作成時の文字化けをなんとかするツール

やまねこ⚙楢ノ木技研 @felis_silv

これ絡みで文字化けした文字列を元に戻すライブラリ github.com/yamamaya/radic…

2025-07-15 21:59:34
リンク GitHub GitHub - yamamaya/radicalchar: 部首文字正規化ライブラリ 部首文字正規化ライブラリ. Contribute to yamamaya/radicalchar development by creating an account on GitHub.
tommie.jp @tommie_nico

@felis_silv このツールで文字化けしないPDFへ変換できるようですが、どうでしょうか? github.com/trueroad/pdf-f…

2025-07-18 17:06:04
リンク GitHub GitHub - trueroad/pdf-fix-tuc: Fix ToUnicode CMap in PDF Fix ToUnicode CMap in PDF. Contribute to trueroad/pdf-fix-tuc development by creating an account on GitHub. 2 users 14

あわせて読みたい

作者のオススメ

 ログインしてコメントしよう
このまとめは誰でもコメントできます。
  • pioneer_zeroのアイコン
    パイオニア_ゼロ@pioneer_zero

    そうだったのか! 5年ぐらい前、長野県の長がU+2FA7〈⾧〉になった謎データが大量にシステムに叩き込まれて、情シスさんが可哀そうな目にあってた原因はこれだろうな

  • wasabipopcandyのアイコン
    mokakira@wasabipopcandy

    これフォントによって 「見た目で全く見分けつかないのに内部的には違う文字だから検索できなくなって困る」のと 「PDFからコピペした文字の一部が明らかに変な見た目で表示されちゃうから置換しなきゃならなくて面倒」 が両方発動するからかなり困るんだよな…… 大雑把な人が明らかに変な見た目で表示された奴をお客さんに渡して向こうを不安にさせちゃうみたいなこともあるし

のアイコン
 ログインしてコメントしよう
このまとめは誰でもコメントできます。

「話題」タグのおすすめまとめ