1日前

Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは？

議論話題文字化け Microsoft Unicode 康煕部首 PDF テクノロジー

35
118
0
26211
25

前へ 1 2

画力・博士号・油田 @bd_gfngfn

@felis_silv はい，「PDFを出力するソフトウェアが /ToUnicodeCMap を出力するときに，ユーザの原稿で U+2FA7〈⾧〉が一度も使われていないことを根拠に，該当GIDに U+9577〈長〉を紐づけるという判断をしてもよいのではないか」という指摘であれば，仰る通りだと思います

2025-07-18 00:48:56

やまねこ楢ノ木技研 @felis_silv

@bd_gfngfn それくらいやってもいいんじゃないかと思うんですが、欧米圏だとこの問題の重大さに気付きづらいのかなー、と思ってます

2025-07-18 00:50:53

画力・博士号・油田 @bd_gfngfn

@felis_silv 欧州でもラテン文字の U+0041〈A〉とキリル文字の U+0410〈А〉とが同一のGIDに紐づいているフォントなどはありふれているはずなのでもっと問題として意識されていても良い気がしますが不思議ですね（ちなみに拙作のSATySFiだと /ToUnicodeCMap 出力時にそのような処理をちゃんとやってます）

2025-07-18 01:07:09

やまねこ楢ノ木技研 @felis_silv

@bd_gfngfn 素晴らしいです！（確かに適切な逆変換テーブルを作るためにメモリもCPUも若干喰うけど、今時誤差の範囲内でしょうし、みんなちゃんと実装しようよ。。

2025-07-18 02:24:37

PDF作成時の文字化けをなんとかするツール

やまねこ楢ノ木技研 @felis_silv

これ絡みで文字化けした文字列を元に戻すライブラリ github.com/yamamaya/radic…

2025-07-15 21:59:34

リンク GitHub GitHub - yamamaya/radicalchar: 部首文字正規化ライブラリ部首文字正規化ライブラリ. Contribute to yamamaya/radicalchar development by creating an account on GitHub.

tommie.jp @tommie_nico

@felis_silv このツールで文字化けしないPDFへ変換できるようですが、どうでしょうか？ github.com/trueroad/pdf-f…

2025-07-18 17:06:04

リンク GitHub GitHub - trueroad/pdf-fix-tuc: Fix ToUnicode CMap in PDF Fix ToUnicode CMap in PDF. Contribute to trueroad/pdf-fix-tuc development by creating an account on GitHub. 2 users 14

前へ 1 2

議論話題文字化け Microsoft Unicode 康煕部首 PDF テクノロジー

あわせて読みたい

いま話題のおすすめまとめ

ログインしてコメントしよう

このまとめは誰でもコメントできます。

パイオニア_ゼロ@pioneer_zero1日前
そうだったのか！ 5年ぐらい前、長野県の長がU+2FA7〈⾧〉になった謎データが大量にシステムに叩き込まれて、情シスさんが可哀そうな目にあってた原因はこれだろうな
mokakira@wasabipopcandy1日前
これフォントによって「見た目で全く見分けつかないのに内部的には違う文字だから検索できなくなって困る」のと「PDFからコピペした文字の一部が明らかに変な見た目で表示されちゃうから置換しなきゃならなくて面倒」が両方発動するからかなり困るんだよな…… 大雑把な人が明らかに変な見た目で表示された奴をお客さんに渡して向こうを不安にさせちゃうみたいなこともあるし

ログインしてコメントしよう

このまとめは誰でもコメントできます。

Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは？

PDF作成時の文字化けをなんとかするツール

あわせて読みたい

もはや研究者に必須のテクノロジーでは？翻訳サービスDeepLで『PDFファイルをそのまま翻訳』できるようになった

ぼく「ファイル名末尾はyyyymmddつけてね」とお願いしたら送られてきたファイルが◯◯yyyymmdd.pdfだった話

上から「PDFを回して行こう」という謎の指令を受けたので指令のとおりにやってみた「不覚にも笑った」

1kg超えミョウバン結晶育成中！どうやって作っているの？プロセスを徹底解説エヴァの某使徒に見えるという声も…

明らかに優先度の低いタスクなのに上司が『Let's go する』と言っていたんだが送られてきたチャット文面で見たら実は『劣後する（＝後回しにする）』だった「こういうことになるから誰でもわかる言葉しか話さない」

6歳男児『ねぇ母ちゃん俺は今から”土の呼吸”つかうから』と自分で考えた設定と更に『煉獄さんには実は弟がもう1人おって』など自分で考えた物語を話し始めた件母座『息子二次創作を作らないか？』

今、リポジトリ内にドキュメント管理する価値が高まっているが…今までリポジトリ内にドキュメント置くのがスタンダードじゃなかったのはなぜだろうか？

マイナーなプログラミング言語で起きた問題をClaudeに訊いたら便利な関数を紹介してくれたが実は架空の機能だった…「機能がまだ存在しないのに先にクライアントにあると言って売るみたいな手法」

チームみらい関係者が反対意見に対して「コントリビューションできますよ！」と反応を送っていることに失礼だとの声 OSSの思想は政治で通用するのか？

いま話題のおすすめまとめ

52歳の被告へ懲役15年の判決が下った新宿タワマン女性殺害事件、業が深い「ここまで言ったら恨まれて当然」「だからって殺していい理由にはならん」

これから料理をしようと思ってる人に一つだけ伝えたいことは『豆腐100%の豆腐ハンバーグは豆腐』だという事「ただの焼き豆腐で草」

ホラーをミステリーでぶん殴る話が大好きなんですよ…→「訳が分からない」感じが「実は説明できる現象だった」ってなる作品、いろいろあります

公園のベンチでおにぎりを食べていたら知らない女性に「女性が外でご飯を食べるなんて躾がなってない！親の顔が見てみたい！」と言われたので次のおにぎりを取り出して食べたという話

地元の工場が閉鎖されてその後の管理を手伝ったことがあるんだけど、かつて経験した「工場閉鎖で地域に起きること」の話をしよう

「菓子パンはあんまり身体に良くない」と言うとあまり人に響かないけど、鈴木亮平さんの役作りの話をすると響く

ブログ漫画に時々登場させている兄から、体の部位が写ったものやLINEのスクショなどは載せないよう希望が→身バレ防止かと思いきや予想外の理由だった

生徒の自主性を重視した改革を行なった東京都内のとある公立中学校、実態は授業妨害、エスケープや学校設備の損壊が頻発する状態だった

「中国で女性BL作家が一斉摘発」されたニュースについて、中国出身者が語る複雑な背景...日本では「中国だから」で片付けられがちだが、単純な「表現の自由vs弾圧」の問題ではない？

日本のサブカル文化、あらゆる面で中国に上回られてもっと早くに衰退するはずだったけど、中国側の規制が思った以上にエグくて、衰退しきる前に世界の認知を得られたからなんとか生き繋げてる感ある

日産の株主総会が大荒れする裏で、スズキはカレーの売れ行きが好調で種類を増やす発表をしていた「なぜスズキがレトルトカレーを売っているの？」

コンビニのパンは全部死んでるけど、パン屋のパンは全部生きてるな「最後に生きたパンをトングで掴んだのはいつだったか」

「話題」タグのおすすめまとめ

居酒屋でご飯を食べていたときに隣席で大学生のサークル新歓コンパが始まったので、これはさぞ賑やかになるだろう…と思いながら経緯を見守っていたら、驚かされることになった話

十年ほど前、仕事先のおじさんたちと飲んでたときに「ウチの会社の事業行き詰まってるんだけど、黒字になってるのなんでだと思う？」と聞かれたが、答えは「設備投資をやめてる」だった

ガンダム『ジークアクス』第11話「アルファ殺したち」まとめ→マチュとニャアンがついに激突、登場を匂わせていた“あの人”も参戦し物語は最終局面へ

「あああああああああああああああああ」ある児童が考えた夏の俳句で、最初ふざけているのかと思ったけど、よくよく聞くと小学生の発想って面白いと感じた話

「アホのファイル転送(PC2台をLANケーブルで直結)」→実はデータ移行ではワイヤレート近くが出るので便利「仕事でoutlookのファイルサイズが異常に大きい客が居た時に有用」

高速道路のガソリンスタンドで夫が給油してる間にトイレに行ったらそのまま置いていかれた話さっとトイレに行くだけと思い携帯も財布も全部車の中に置いてきて…

ご飯は炊飯器から「セルフサービス」とは言ったけど食べ放題ではないんだから一人で4合も食べないで、とある民宿の投稿が話題に

某巨大遊園地から僕が取得しているドメインが権利侵害にあたるから寄越せという連絡が...素直に従うべきか抵抗するべきか...→｢想像してたより遥かに強大な相手だった｣

1989年、高校の卒業旅行で友人と香港の『九龍城砦』に行ったら、ガイドさんから恐ろしい一言を放たれ10mほど入り怖くなってやめた話「ここは、行った人にしかわかりません」

『2025年エイプリルフール』まとめ今年もついにあの日が到来… 数多の公式アカウントが大暴れ、今年はどんなサプライズが見られるのか #エイプリルフール

ガンダム『ジークアクス』第12話「だから僕は… 」まとめ→マチュの前に立ち塞がるは向こう側からやってきた“白い悪魔” ついに迎えた最終回、戦いの果てに待つのは…

「コスプレは入店できません」ベルばらカフェにロリィタ服で行ったら入店拒否された…という話に様々な意見が集まる

ランキング
リアルタイム
24時間

みんなのコメント
注目コメント
新着

Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは？

PDF作成時の文字化けをなんとかするツール

あわせて読みたい

もはや研究者に必須のテクノロジーでは？翻訳サービスDeepLで『PDFファイルをそのまま翻訳』できるようになった

ぼく「ファイル名末尾はyyyymmddつけてね」とお願いしたら送られてきたファイルが◯◯yyyymmdd.pdfだった話

上から「PDFを回して行こう」という謎の指令を受けたので指令のとおりにやってみた「不覚にも笑った」

作者のオススメ

1kg超えミョウバン結晶育成中！どうやって作っているの？プロセスを徹底解説 エヴァの某使徒に見えるという声も…

明らかに優先度の低いタスクなのに上司が『Let's go する』と言っていたんだが送られてきたチャット文面で見たら実は『劣後する（＝後回しにする）』だった「こういうことになるから誰でもわかる言葉しか話さない」

6歳男児『ねぇ母ちゃん 俺は今から”土の呼吸”つかうから』と自分で考えた設定と更に『煉獄さんには実は弟がもう1人おって』など自分で考えた物語を話し始めた件 母座『息子 二次創作を作らないか？』

今、リポジトリ内にドキュメント管理する価値が高まっているが…今までリポジトリ内にドキュメント置くのがスタンダードじゃなかったのはなぜだろうか？

マイナーなプログラミング言語で起きた問題をClaudeに訊いたら便利な関数を紹介してくれたが実は架空の機能だった…「機能がまだ存在しないのに先にクライアントにあると言って売るみたいな手法」

チームみらい関係者が反対意見に対して「コントリビューションできますよ！」と反応を送っていることに失礼だとの声 OSSの思想は政治で通用するのか？

いま話題のおすすめまとめ

52歳の被告へ懲役15年の判決が下った新宿タワマン女性殺害事件、業が深い「ここまで言ったら恨まれて当然」「だからって殺していい理由にはならん」

これから料理をしようと思ってる人に一つだけ伝えたいことは『豆腐100%の豆腐ハンバーグは豆腐』だという事「ただの焼き豆腐で草」

ホラーをミステリーでぶん殴る話が大好きなんですよ…→「訳が分からない」感じが「実は説明できる現象だった」ってなる作品、いろいろあります

公園のベンチでおにぎりを食べていたら知らない女性に「女性が外でご飯を食べるなんて躾がなってない！親の顔が見てみたい！」と言われたので次のおにぎりを取り出して食べたという話

地元の工場が閉鎖されてその後の管理を手伝ったことがあるんだけど、かつて経験した「工場閉鎖で地域に起きること」の話をしよう

「菓子パンはあんまり身体に良くない」と言うとあまり人に響かないけど、鈴木亮平さんの役作りの話をすると響く

ブログ漫画に時々登場させている兄から、体の部位が写ったものやLINEのスクショなどは載せないよう希望が→身バレ防止かと思いきや予想外の理由だった

生徒の自主性を重視した改革を行なった東京都内のとある公立中学校、実態は授業妨害、エスケープや学校設備の損壊が頻発する状態だった

「中国で女性BL作家が一斉摘発」されたニュースについて、中国出身者が語る複雑な背景...日本では「中国だから」で片付けられがちだが、単純な「表現の自由vs弾圧」の問題ではない？

日本のサブカル文化、あらゆる面で中国に上回られてもっと早くに衰退するはずだったけど、中国側の規制が思った以上にエグくて、衰退しきる前に世界の認知を得られたからなんとか生き繋げてる感ある

日産の株主総会が大荒れする裏で、スズキはカレーの売れ行きが好調で種類を増やす発表をしていた「なぜスズキがレトルトカレーを売っているの？」

コンビニのパンは全部死んでるけど、パン屋のパンは全部生きてるな「最後に生きたパンをトングで掴んだのはいつだったか」

「話題」タグのおすすめまとめ

居酒屋でご飯を食べていたときに隣席で大学生のサークル新歓コンパが始まったので、これはさぞ賑やかになるだろう…と思いながら経緯を見守っていたら、驚かされることになった話

十年ほど前、仕事先のおじさんたちと飲んでたときに「ウチの会社の事業行き詰まってるんだけど、黒字になってるのなんでだと思う？」と聞かれたが、答えは「設備投資をやめてる」だった

ガンダム『ジークアクス』第11話「アルファ殺したち」まとめ→マチュとニャアンがついに激突、登場を匂わせていた“あの人”も参戦し物語は最終局面へ

「あああああ あああああああ あああああ」ある児童が考えた夏の俳句で、最初ふざけているのかと思ったけど、よくよく聞くと小学生の発想って面白いと感じた話

「アホのファイル転送(PC2台をLANケーブルで直結)」→実はデータ移行ではワイヤレート近くが出るので便利「仕事でoutlookのファイルサイズが異常に大きい客が居た時に有用」

高速道路のガソリンスタンドで夫が給油してる間にトイレに行ったらそのまま置いていかれた話 さっとトイレに行くだけと思い携帯も財布も全部車の中に置いてきて…

ご飯は炊飯器から「セルフサービス」とは言ったけど食べ放題ではないんだから一人で4合も食べないで、とある民宿の投稿が話題に

某巨大遊園地から僕が取得しているドメインが権利侵害にあたるから寄越せという連絡が...素直に従うべきか抵抗するべきか...→｢想像してたより遥かに強大な相手だった｣

1989年、高校の卒業旅行で友人と香港の『九龍城砦』に行ったら、ガイドさんから恐ろしい一言を放たれ10mほど入り怖くなってやめた話「ここは、行った人にしかわかりません」

『2025年エイプリルフール』まとめ 今年もついにあの日が到来… 数多の公式アカウントが大暴れ、今年はどんなサプライズが見られるのか #エイプリルフール

ガンダム『ジークアクス』第12話「だから僕は… 」まとめ→マチュの前に立ち塞がるは向こう側からやってきた“白い悪魔” ついに迎えた最終回、戦いの果てに待つのは…

「コスプレは入店できません」ベルばらカフェにロリィタ服で行ったら入店拒否された…という話に様々な意見が集まる

1kg超えミョウバン結晶育成中！どうやって作っているの？プロセスを徹底解説エヴァの某使徒に見えるという声も…

6歳男児『ねぇ母ちゃん俺は今から”土の呼吸”つかうから』と自分で考えた設定と更に『煉獄さんには実は弟がもう1人おって』など自分で考えた物語を話し始めた件母座『息子二次創作を作らないか？』

「あああああああああああああああああ」ある児童が考えた夏の俳句で、最初ふざけているのかと思ったけど、よくよく聞くと小学生の発想って面白いと感じた話

高速道路のガソリンスタンドで夫が給油してる間にトイレに行ったらそのまま置いていかれた話さっとトイレに行くだけと思い携帯も財布も全部車の中に置いてきて…

『2025年エイプリルフール』まとめ今年もついにあの日が到来… 数多の公式アカウントが大暴れ、今年はどんなサプライズが見られるのか #エイプリルフール