(cache) 文字コード統一スレ 1文字目 / プログラム(ＰＣ等)-2ちゃんねる過去ログ倉庫

1 とりあえず立ててみた 投稿日:05/02/24 00:07:38

プログラムにおける文字コードの取り扱いについて議論する統一スレッド
です。

ほぼ前スレ
【UTF8】文字コード変換【SJIS】
http://pc5.2ch.net/test/read.cgi/tech/1063177450

参考ホームページ
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm

2 デフォルトの名無しさん [sage] 投稿日:05/02/24 00:08:53

文字コードを統一するのか？
アホか？

3 デフォルトの名無しさん [sage] 投稿日:05/02/24 00:37:16

アホw

4 デフォルトの名無しさん [sage] 投稿日:05/02/24 00:55:22

「文字コード乱立スレ」ってわけにもいかんし…

5 デフォルトの名無しさん [sage] 投稿日:05/02/24 01:03:38

新スレ発見！乙 >>1
リンク貼る前に埋めんな＞前スレ999-1000

6 テンプレ作った人 [sage] 投稿日:05/02/24 01:17:13

>>1 乙

7 デフォルトの名無しさん 投稿日:05/02/24 01:26:49

Win32 API で UTF16 を EUC-JP(-ms) にするときは、
　UTF16 →(WideCharToMultiByte)→ CP932 →(自分でがんがる)→ EUC-JP
が普通なのかなあ・・・。

ドキュメントでは WideCharToMultiByte の CodePage に 51932 を指定すれば一発でできそうに
書いてあるのに、実際やるとなんでﾀﾞﾒなんだよ（ｗ
CP20932 は微妙に変換ルールが違うみたいだしなあ(´･ω･`)

8 デフォルトの名無しさん [sage] 投稿日:05/02/24 01:41:13

IMultiLanguage Interface
http://msdn.microsoft.com/library/default.asp?url=/workshop/misc/mlang/reference/ifaces/imultilanguage/imultilanguage.asp
これは対応している予感。使ったことないから知らないけど。

9 デフォルトの名無しさん [sage] 投稿日:05/02/24 01:44:01

文字コードを統一？
TRONコードの出番か！

10 デフォルトの名無しさん [sage] 投稿日:05/02/24 03:22:46

>>7
俺は変換テーブルを実行ファイルに組み込んでいる。
200KBぐらいだけど、これで特に問題はない。

11 デフォルトの名無しさん [sage] 投稿日:05/02/24 03:26:24

ところでUTF16なんてあるの？

12 デフォルトの名無しさん [sage] 投稿日:05/02/24 03:31:23

アホなスレタイだなｗ
「統一」いらんじゃんｗ

13 デフォルトの名無しさん [sage] 投稿日:05/02/24 03:41:04

とういつ【統一】
まとまりのないばらばらな物事を１つのものにまとめること。

新しい文字コードでも作るつもりなのか？このスレ

14 デフォルトの名無しさん [sage] 投稿日:05/02/24 03:43:22

1も読めないのか。読んで言っているのなら白痴だな。

15 デフォルトの名無しさん [sage] 投稿日:05/02/24 03:44:03

>>7
うるさいことを言わなければコードページ20932がなんとなくEUC-JPに近い。
JIS X 0208 にない文字は変になるけど。

16 デフォルトの名無しさん [sage] 投稿日:05/02/24 03:48:20

スレタイも読めないのか。読んで言っているのなら白痴だな。

17 デフォルトの名無しさん [sage] 投稿日:05/02/24 04:05:24

>>13 辞書を引用し、都合のいい解釈をする
>>16 人の言葉をモジって言い返す
アホの典型

18 デフォルトの名無しさん [sage] 投稿日:05/02/24 04:26:06

ではスレタイはどんな意味で統一と入れたのか

19 デフォルトの名無しさん 投稿日:05/02/24 04:45:00

早く各種ローカルコードからUnicodeへのマッピングを統一してくれ．
あと，サロゲートペアってもうなくならんのだろうな…
結局固定ビット長で処理できねーじゃんか．

20 デフォルトの名無しさん 投稿日:05/02/24 07:08:44

まずスレタイの意味を統一すべきだな。

21 デフォルトの名無しさん [sage] 投稿日:05/02/24 10:18:07

>>19
32bitで固定

22 テンプレ作者 [sage] 投稿日:05/02/24 10:57:35

他に文字コード関連のスレを立てる人がいないように「統一」の
文字を入れました。もう立っているみたいですが。

23 デフォルトの名無しさん [sage] 投稿日:05/02/24 11:01:09

普通「総合」じゃないのかな？

24 テンプレ作者 [sage] 投稿日:05/02/24 11:06:15

ま、洒落と言うことにしといてくださいな。

25 デフォルトの名無しさん [sage] 投稿日:05/02/24 11:46:41

統一だろうが総合だろうがどうでもいいんだが・・・

26 デフォルトの名無しさん [sage] 投稿日:05/02/24 12:01:35

>>7,15
ttp://msdn.microsoft.com/library/en-us/intl/unicode_81rn.asp
によるとCP20932はJIS X 0208-1990 & 0121-1990だな。

27 デフォルトの名無しさん 投稿日:05/02/24 12:42:27

>>21 そりゃなんでもあまりにもスカスカ過ぎないか？
まぁメモリ潤沢な昨今のパソコンならそれでもいいと思うけど、
やっぱり2バイトくらいにとどめておいて欲しかった。
つーか、4バイトで固定するならそもそもサロゲートペアいらねーじゃん。
次の面に素直にもってくりゃよかったんだ。

28 デフォルトの名無しさん [sage] 投稿日:05/02/24 12:53:11

> つーか、4バイトで固定するならそもそもサロゲートペアいらねーじゃん。

その通り。サロゲートペアは2バイトという幻想にとらわれた故の特殊事情であって、
もはやUnicodeとしてはサロゲートペアなんぞ使わないのが正しい。

29 デフォルトの名無しさん 投稿日:05/02/24 13:01:21

さすがに第1群以降は使わないよな？
せめて最上位バイトを内部処理用フラグとして使いたい。
まぁ外に出すときにはクリアするが。

30 デフォルトの名無しさん [sage] 投稿日:05/02/24 13:17:13

確かに文字コードは頭が痛くなる問題ですね。
早く標準が固まって欲しいです。

ただ、右から左にテキストを書くやつ(アラビア辺り?)とかは
絶望的じゃなかろうかと思ってみたりみなかったり。

31 デフォルトの名無しさん [sage] 投稿日:05/02/24 13:50:09

>>30
標準ならあるぞ。たくさん(笑)

right-to-leftの何が絶望的なんだろう? ふつうにWindowsでも扱えるは
ずだけど。

32 デフォルトの名無しさん [sage] 投稿日:05/02/24 14:08:58

ストリームの出現順の問題のことを言ってるのかな？

33 デフォルトの名無しさん 投稿日:05/02/24 14:10:04

>>30
日本語は縦書きなんだが

34 デフォルトの名無しさん [sage] 投稿日:05/02/24 14:48:10

>>30
描画方向が違うだけだと思うYO

35 デフォルトの名無しさん [sage] 投稿日:05/02/24 15:53:10

日本でも昔の看板とかは右から左

36 デフォルトの名無しさん [sage] 投稿日:05/02/24 16:03:14

笑止！それは一行一文字の縦書きにすぎぬわ！

37 デフォルトの名無しさん [sage] 投稿日:05/02/24 16:13:22

そんなわけで本文なんかを横書きにする場合では、
相当古くから(もちろん明治維新よりは後だが)
今と同じく左から右へ書いていたそうな。

38 デフォルトの名無しさん [sage] 投稿日:05/02/24 18:00:17

左←右圏でも縦書きされる場合があるらしい。看板とか。

39 デフォルトの名無しさん [sage] 投稿日:05/02/24 18:24:23

まさにアホなスレタイ
文字表示雑談スレ

40 デフォルトの名無しさん [sage] 投稿日:05/02/24 18:30:54

右から左に書く場合でも、数値だけは逆だったりするよね。
日本語にたとえれば、「。すで年2005は年今」みたいな感じ。

41 デフォルトの名無しさん [sage] 投稿日:05/02/24 18:47:29

アホなスレタイだとアホしかよってこない。
スレタイってやっぱり大事なんだね。

42 7 投稿日:05/02/24 21:50:15

>>8 動作要件に IE4 以上というのが気に掛かる・・・。
>>10 その方法を考えたけど、実行ファイルが肥大化するのと、他の Windows アプリとの
　　データ互換性が保証できなくなるのがネック・・・。
>>15 >>26 一見よさげだけど、たとえば「～」なんか化けてしまうのが致命的・・・。

みなさんどうもでつ。もう少しいろいろ検討してみまつ。

43 デフォルトの名無しさん [sage] 投稿日:05/02/24 22:52:42

>>27
ISO 10646 dis v.1

44 デフォルトの名無しさん [sage] 投稿日:05/02/25 10:20:01

>>41　意外とまともな事言ってる人もいると思うが。

45 デフォルトの名無しさん 投稿日:05/02/25 10:22:38

http://suika.fam.cx/~wakaba/-temp/wiki/wiki?ISO%2FIEC%2010646
>>43 それって、この表だとどの規格のこと？

46 デフォルトの名無しさん [sage] 投稿日:05/02/25 11:03:27

>>45
DIS 10646:19911990-12-061st DIS

47 デフォルトの名無しさん [sage] 投稿日:05/02/25 12:02:10

>>43
寝言言ってねえで素直にUTF-32でも使っとけ。

48 デフォルトの名無しさん [sage] 投稿日:05/02/25 12:26:02

>>44
Unicodeは複数コードポイントを組合わせる可変長表現なのに、
相変わらず２バイト４バイト固定とか言ってますが。

49 デフォルトの名無しさん [sage] 投稿日:05/02/25 12:54:57

結局シフトJISに統一されるんだよな

50 デフォルトの名無しさん 投稿日:05/02/25 13:29:46

（・∀・）ｳﾝｺｰ

51 デフォルトの名無しさん 投稿日:05/02/25 13:56:16

>>48 その「固定」ってのは sizeof wchar_t の話だと思う

52 デフォルトの名無しさん 投稿日:05/02/25 14:01:52

総合といいたかったのか。なるほど。

53 デフォルトの名無しさん 投稿日:05/02/26 00:51:25

>>51
Linux の gcc だと sizeof(wchar_t) == 4 で、
Windows の VC++ だと sizeof(wchar_t) == 2 だったり。

54 デフォルトの名無しさん [sage] 投稿日:05/02/26 01:06:18

将来の主流は、__wchar64_t になると予言しておく。

55 デフォルトの名無しさん 投稿日:05/02/26 01:41:31

typedef unsigned int wchar_t;
が
typedef unsigned _int64 swchar_t;
になって
typedef unsigned _int128 xwchar_t;
になって
typedef unsigned _int256 uwchar_t;
になって（ｒｙ

56 Winかよ!? [sage] 投稿日:05/02/26 01:44:50

>>55
unsigned _int64って何だよ…

いまや#include <stdint.h>で、uint64_tじゃないのか?

57 デフォルトの名無しさん [sage] 投稿日:05/02/26 02:04:17

>>51
wchar_tはUnicodeが入るとは限らないんだけど、そのままUTF-16やUTF-32
を突っ込んでる実装が多いから良しと仮定しましょう。
wchar_tにUTF-32が並んでいても、そこから文字（grapheme）単位に処理
するにはステートマシンで区切りを探さないといけない。
　http://www.unicode.org/reports/tr29/
こういったことを理解しての発言には見えない。
加えて、ICUもそうだけどUTF-16が処理対象の場合はサロゲート込みで処
理されるからサロゲートの有無で手間は全く変わらない。

58 デフォルトの名無しさん [sage] 投稿日:05/02/26 02:04:28

>55
さすがに地球外知性とデータ送受信するようにでもならないとそこまでは……
いや、そうなったらそうなったで、向こうのコード体系を強引に押しつけられる悪寒orz

59 デフォルトの名無しさん [sage] 投稿日:05/02/26 11:29:58

>>57
> そこから文字（grapheme）単位に処理
> するには
誰もそんなこと書いてないと思うが。

60 デフォルトの名無しさん [sage] 投稿日:05/02/26 12:57:35

文字単位に処理することはあり得るだろう？

61 デフォルトの名無しさん 投稿日:05/02/26 14:23:12

あり得るけど、それこそ Shift JIS や EUC-JP でAPI/システムコールレベルでは
バイト列として扱い、それを文字に組み上げるのは各アプリケーションの責任という
考え方もあった罠。
この考え方を Unicode にあてはめてみたり、とか。char を wchar_t に変えて。

62 デフォルトの名無しさん [sage] 投稿日:05/02/26 14:42:33

>>61
> あり得るけど、それこそ Shift JIS や EUC-JP でAPI/システムコールレベルでは
> バイト列として扱い、それを文字に組み上げるのは各アプリケーションの責任という
> 考え方もあった罠。

それほど変ってないような…

そしてその「アプリケーションの責任」の技術的な部分の研究を、
一番行っているのはUnicodeの世界なのでは?

63 デフォルトの名無しさん 投稿日:05/02/26 17:38:26

結局「一文字」単位に扱おうとすると,
ステートマシンは必要になるのか…
なんかあんまり変わってないな，昔と.

64 デフォルトの名無しさん [sage] 投稿日:05/02/26 20:24:52

>>63
そういう領域はUnicodが解決しようとした問題領域に含まれていないものと思われ。

65 デフォルトの名無しさん 投稿日:05/02/26 20:48:58

結局は、ASCII 系のコードしかなかった頃は基本単位（char） 1 つに
英数字程度しか入らなかったけど、Unicode では基本単位（wchar_t） 1 つに
漢字とかも入れられるようになりますたよ。

でも、国際化を考えるときは 1 基本単位＝ 1 文字と仮定するのはやめようね。
というのは変わってないということか。

66 デフォルトの名無しさん [sage] 投稿日:05/02/27 00:27:02

http://www.hatena.ne.jp/1105667960

67 57 [sage] 投稿日:05/02/27 00:45:01

>>59
UAX #29でも触れられているけど、文字（grapheme）単位に
処理できないと文字列の文字数を得たり、分解したりできな
いのはもちろん、比較や検索も正しく行なえない。

68 デフォルトの名無しさん [sage] 投稿日:05/02/27 01:24:33

normalize してもコードポイント一つであらわせない文字は正しく扱えません
としても、それほど困らないんだよなあ。
実装コストに見合うメリット無いし。

69 デフォルトの名無しさん 投稿日:05/02/27 02:13:31

>>67-68
内部文字コードが Unicode 化された Visual Basic 4.0 以降や Java なんかでは、
「文字列をバイト単位で切り出すにはどうすればよいですか？」という質問が
必ず FAQ になってるよな（ｗ

70 デフォルトの名無しさん [sage] 投稿日:05/02/27 02:34:30

U+F92FとU+F98DのkIRG_KSourceが間違ってる件について
これどうやったら修正させることができるんですか
韓国のNational Bodyが言い出さない限り何人たりとも修正できないんでしょうか
とりあえずUnicode 4.1.0βのレビューで指摘してみたけどシカトされますた
ほかの指摘事項はちゃんと反映されてたから指摘そのものは届いてるはず

71 デフォルトの名無しさん [sage] 投稿日:05/02/27 13:12:20

ほかの指摘事項はたまたまほかの人が同じ指摘をしたんだろう

72 デフォルトの名無しさん [sage] 投稿日:05/02/28 07:13:00

5件あって5件ともたまたま別の人が同時に指摘したってあんまりありそうにないような
「報告ありがとう。Unihanの専門家に転送しとくよ彼が今日中に反映してくれるだろう」
みたいな返信もちゃんと返ってきたし。
正規表現が間違いだらけだったから正しいの書いて送ったけど他の誰かが一字一句
ピッタリ一致するような正規表現をたまたま同時に送ってたとかありえなーい。
つーかスクリプトに通して検査するだけで見つかるような誤りがなんでボロボロ
出てきますか? なんのために機械可読な形式で提供してますか?

73 デフォルトの名無しさん [sage] 投稿日:05/02/28 08:42:52

もう一回聞いてみればいいじゃん

74 デフォルトの名無しさん [sage] 投稿日:05/03/01 01:46:45

戸籍やってる身からすれば
康煕字典体はきっちり入っていないと

75 デフォルトの名無しさん 投稿日:05/03/02 08:36:34

ところで，Unicode って既存のコードとのラウンドトリップは考慮されてるの？
つまり Unicode に変換されたとたん，元のコードでは区別されていた文字が
同じ文字にマップされたりはしないの？
それはいわゆる機種依存文字も含めて？

76 デフォルトの名無しさん [sage] 投稿日:05/03/02 08:53:12

文字コードを作る人は馬鹿ですか？
なんで固定バイト数にしないんだよ。
先頭数ビットを国コードにして残りを文字コードに割り当てる。

似ている文字でも国ごとに別の文字コードにするべきだ。
そして検索の機能として文字コード検索と、文字形検索の二つに分ける。

77 デフォルトの名無しさん [sage] 投稿日:05/03/02 09:06:12

>>76
UNICODE棄てれば実現可能かもね

78 デフォルトの名無しさん [sage] 投稿日:05/03/02 10:18:45

>>76
そしてPhishingが横行

79 デフォルトの名無しさん [sage] 投稿日:05/03/02 10:38:34

多言語ドメインなんてくだらないものは捨てちまえ。

80 デフォルトの名無しさん [sage] 投稿日:05/03/02 14:57:31

>>76
Emacsの内部コードがそんな感じよ。文字列表現はマルチバイトだけど。
国ごとじゃなくて文字集合ごとだけど実質あまり変わらん。

81 デフォルトの名無しさん [sage] 投稿日:05/03/02 15:50:16

マジな話、文字形検索（文字コードではなく文字の形で
検索すると言う意味）って考え方ないの？

同じ形の字でも国が違えば検索に引っかからない方がいいだろうし、
同じ国でちょっと違う形の字でも同じとして検索した方がいいこともあるだろうし、
国は分からないけど、すべての国対象で似ている字を検索したいこともあると
思うんだけどなぁ。

82 デフォルトの名無しさん [sage] 投稿日:05/03/02 15:55:33

1 I l | ! i │ ⅰ Ⅰ (以下略)をどこまで一緒にするのやら

83 デフォルトの名無しさん [sage] 投稿日:05/03/02 16:54:58

>>75
文字コードA →Uniocde→文字コードA と、元に戻せることは配慮されてる。
そのために互換用文字とか元規格分離の原則とかがあるわけで。

機種依存文字は、例えばJIS X 0208のShift_JISとMicrosoftのCP932と
Appleの拡張Shift_JISは「別の文字コード」なので、Unicodeを介した
それぞれの変換で情報が失われないことは配慮されない、という扱い。

84 デフォルトの名無しさん 投稿日:05/03/02 19:56:53

<とくを一緒にされなかっただけでも不幸中の幸い

85 デフォルトの名無しさん [sage] 投稿日:05/03/02 23:31:01

へとヘは？

86 デフォルトの名無しさん [sage] 投稿日:05/03/03 02:37:43

タと夕とか
トと卜とか

87 デフォルトの名無しさん [sage] 投稿日:05/03/03 04:42:46

ロとか口とか

88 デフォルトの名無しさん [sae] 投稿日:05/03/03 11:42:20

(以下略

89 デフォルトの名無しさん [sage] 投稿日:05/03/03 16:02:46

C++ で文字コード変換したいと思った場合、
Windows + IE5.5 ならば、IMultiLanguage3 を通して変換すればいいが、
UCS-4 のコードから、文字種別などの文字情報を取得するライブラリが
OS標準にないというのが悲しい。

90 デフォルトの名無しさん [sage] 投稿日:05/03/03 16:09:52

Windowsの事しか考えられないバカは去ってくれ。

91 デフォルトの名無しさん [sage] 投稿日:05/03/03 18:27:33

>>90
そりゃ言いすぎ(w

けど、
> Windows + IE5.5 ならば、IMultiLanguage3 を通して変換すればいいが、
つーのが、もうスレの主旨には全く合わないな。
それが良いかどうか語りたいようなヲタの住むスレなんだから。

92 デフォルトの名無しさん [sage] 投稿日:05/03/07 22:10:55

>>73
Unihan-4.0.1d4で修正されてますた。
つーかよく見たらUnihan-4.0.1d3のヘッダにも
> Similarly, U+F92F should map to kIRG_KSource 0-523E, not 0-523F, and U+F98D should
> map to kIRG_KSource 0-663C, not 0-663D.
って追加されてた。正直スマンカッタ＞unicode.orgの中の人

93 デフォルトの名無しさん [sage] 投稿日:05/03/07 22:13:29

Unihan-4.1.0d4とUnihan-4.1.0d3の間違い

94 デフォルトの名無しさん 投稿日:05/03/08 01:19:00

iconv(3) の引数 inbuf の型が、glibc 版だと char** になってて libiconv 版だと const char** なのがイヤン

95 デフォルトの名無しさん [sage] 投稿日:05/03/10 11:13:14

>>94
SUS的にはchar**が定義らしいが、現実的にはconst char**じゃないと
面倒なんだよな。

96 デフォルトの名無しさん 投稿日:05/03/10 13:04:58

>>83 に関連した疑問なんだが，各種日本語文字コード，Unicode間で
縦横無尽にマッピングしまくッっても安全な集合って
どこかで定義されてない？？

97 デフォルトの名無しさん [sage] 投稿日:05/03/10 15:21:23

サロゲートうんこ

98 デフォルトの名無しさん [sage] 投稿日:05/03/10 21:21:44

内部はgrapheme clusterを単位にした固定長コードにでもしないと
面倒でやってられんぞ

99 デフォルトの名無しさん 投稿日:05/03/11 00:57:47

>>95
http://www.opengroup.org/onlinepubs/007908799/xsh/iconv.html
では const 付きだけど

http://www.opengroup.org/onlinepubs/007908799/xsh/iconv.h.html
には const 付いてない(つД`)

100 デフォルトの名無しさん [sage] 投稿日:05/03/11 02:55:46

>>96
\~￣―＼～∥…－￥￠￡￢とか
CP932におけるNEC選定IBM拡張文字とか
古えの半角ｶﾅとかの話?

101 デフォルトの名無しさん [sage] 投稿日:05/03/11 05:35:24

①②③④⑤⑥⑦⑧⑨

102 デフォルトの名無しさん 投稿日:05/03/11 05:55:24

>>100 そう．そういう微妙な文字以外の
「安全な」文字の集合ってどこかでまとめてくれてないかな，と．
自鯖の掲示板で，サニタイジングのついでに警告を出したい．

103 デフォルトの名無しさん [sage] 投稿日:05/03/11 06:33:51

>>98
コードポイント３つ４つの組合せもあるから、余裕も見て内部は
1 cluster=20byte位の固定長？素晴らしい富豪設計です。

104 デフォルトの名無しさん [sage] 投稿日:05/03/11 07:00:57

>>103
任意のスカラ値の組み合わせが可能な訳じゃないからそんなに必要ない

105 デフォルトの名無しさん [sage] 投稿日:05/03/11 07:08:52

よくある実装が必要な組み合わせだけ適当にPUAに割り当てて
知らない/対応する気のないスクリプトはそのまんま素通し
どうせ未定義の符号位置に関しては素通しにせざるを得ないんだし

つーかなんでこうも過度に汎用化したがるんだろうか
シフトJISのアプリケーションがISO 2022完全実装に対応できないから駄目なんて
文句言う奴はいないのになんでUnicodeになったとたん単なる地域化じゃ許されなく
なりますか? 単に漢字をたくさん使いたいだけというささやかな望みも叶いませんか?

106 デフォルトの名無しさん [sage] 投稿日:05/03/11 18:57:03

>>102
(jisx0201左半面 or ASCII) + (jisx0208) - (\~￣―＼～∥…－￥￠￡￢)
前提がひどく厳しいのでこんなものじゃないかしら。
ISO-2022-JPの…なんてことは言わないで頂戴。

いわゆる機種依存文字や半角カナが非互換なのは、unicode以前からの通り。
\~￣―＼～∥…－￥￠￡￢は、unicodeの普及によって新たに生じた非互換。
(余談だけど、後者は終止unicodeのみで処理するときでさえいやらしい。)

「自鯖の掲示板」で「縦横無尽にマッピングしまく」る必要はないようにも思うが。

107 デフォルトの名無しさん [sage] 投稿日:05/03/12 19:44:53

人間はなぜ同じ過ちを繰り返すのでしょうか？

108 デフォルトの名無しさん [sage] 投稿日:05/03/13 00:39:53

>>107
過去の失敗から学ぼうとしないからだ、と何回言ったら分かるんだ

109 デフォルトの名無しさん [sage] 投稿日:05/03/13 08:59:59

>>104
HangulやDevanagariは３つ４つ平気で使うよ。

110 デフォルトの名無しさん 投稿日:05/03/13 09:14:00

>109 タイ語もたくさん使うよ。

111 デフォルトの名無しさん [sage] 投稿日:05/03/16 01:50:18

>>109-110
だから3つ4つの任意の組み合わせがすべて必要なわけじゃないだろ。
Windowsのフォントフォルダ見てもインド語のフォントは500KBもないし
実際にPUA使ってリガチャを実装してるタイ語やインド語のフォントだって
BMPの6400文字で十分に足りてる。理論上可能なすべての組み合わせを
サポートするニダ150万コードポイント必要ニダUTCは謝罪と賠償しる!
とはさすがの韓国も言ってないみたいだし。
そもそもそんなこと言い出したらIdeographic Description Sequenceなんか
最大16コードポイントの並びだし。

112 デフォルトの名無しさん [sage] 投稿日:05/03/16 06:11:24

>>111
要約すると「Windowsでは使わない、使えないから不要」ということ？
でしたら特定の実装上と限定して話しをして下さい。

ちなみにAppleのATSUIだと、PUA使ってリガチャを実装なんて変なこと
はやってないから、長いdecompositionで表現したcomplex scriptでも
glyph metamorphosis tableを使って適切なglyphを拾って来る。
この実装上では、complex scriptが扱えなかったり、ヒラギノOpenType
の豊富なglyphを使えないと粗悪品とみなされます。

113 デフォルトの名無しさん 投稿日:2005/04/27(水) 20:33:59

Windowsが扱うコードをすべてutf-8に統一したいんですけど、できますか?
たとえば、コマンドプロンプトとかでutf-8で書いたコンソールに文字列を出力するjavaのコードをコンパイルしたものを実行したいんです。
現状では、コマンドプロンプトはMS932(Shift_JIS)と勝手に解釈してへんちくりんな文字列を出力します。

114 デフォルトの名無しさん [sage] 投稿日:2005/04/27(水) 21:23:00

>>113
毎回MultiByteToWideChar(CP_UTF8, で変換するしかない。

115 デフォルトの名無しさん [sage] 投稿日:2005/04/27(水) 23:05:28

>>113
CygwinのLC_ALLにutf-8って指定できなけったった？

116 デフォルトの名無しさん [sage] 投稿日:2005/04/28(木) 10:40:23

OutputStreamWriter(system.out, "MS932")

117 デフォルトの名無しさん [sage] 投稿日:2005/04/30(土) 13:39:58

>115
Cygwin のロケール周りはきちんと実装されていないはず。

118 デフォルトの名無しさん [sage] 投稿日:2005/05/02(月) 09:12:23

経済産業省が、こんなこと発表してた。
http://www.jisc.go.jp/newstopics/2004/041221kanjicode.htm

現在、最新のＪＩＳ漢字コード表を採用した情報機器は多くありません。
しかしながら、人名用漢字の改正を契機に最新のＪＩＳ漢字コード表が普及することが期待されます。
人名用漢字（９８３字）の水準ごとの字数は、次のとおりです。
第１水準：６８５字第２水準：１９１字第３水準：１０７字第４水準：０字合計：９８３字
（注）第１水準漢字及び第２水準漢字しか実装していない情報機器では、
１０７字の人名用漢字について情報交換が行えないことになります。

これは、Unicode導入をどんどん進めろと言いたいわけか ?

119 デフォルトの名無しさん [sage] 投稿日:2005/05/03(火) 00:43:07

>>118
AppleもMicrosoftも、UnicodeのレパートリとしてしかJIS X 0213はサポートしないと
ずっと前から言っている。それをようやく追認しただけ。
その発表書いた中の人のコメント↓
http://slashdot.jp/comments.pl?sid=230343&op=&threshold=1&commentsort=0&mode=nested&startat=&pid=0

120 デフォルトの名無しさん [sage] 投稿日:2005/05/03(火) 00:53:27

リンク先にはもうコメント付けられないからここに書いとこう
> ＃戸籍統一コードのページができているのにも気がついた。これはいわゆる
> 住基コードなんだろうか。
違うもの(なんつー税金の無駄遣い…)。
http://www.itscj.ipsj.or.jp/senmon/03sen/moji.html

> JIS X 0213の2000年版と2004年版でUCSが違う(正確には2000年版では「参考」
> として載せられていた363個のUCSが、2004年版では「規定」になったうえにUCSでの
> 符号位置も変わった)
それは(Unicode 3.0以前に)対応するUCSがないと「規定」されていたものに
(Unicode 3.1以降への)対応を追加しただけだからまあ許せるけど
2面93区27点をU+9B1D(規定)からU+9B1C(規定)に変えたのをお忘れですかセンセイ
そもそも「変わった」とか他人事のように言ってるけどあんたが変えたんでしょうに

121 デフォルトの名無しさん [sage] 投稿日:2005/05/03(火) 00:55:28

> 変えたのをお忘れですか
これは本気で忘れてる可能性もあるんだよな
あれだけあれこれ言い訳してるJIS X 0213:2004の解説でもこの件には
なぜか一切触れてないし

122 デフォルトの名無しさん [sage] 投稿日:2005/05/04(水) 15:54:55

JIS X 0213 で例示字形が大幅に変えられたことの影響はどうでるか。

以前、小形克宏氏は「文字の海、ビットの舟」で
「ほとんどのフォントベンダーの対応は、... 世間が新しいMS書体を
どう受け入れるかを見極めた後になるはず。」としていた。
http://internet.watch.impress.co.jp/www/column/ogata/sp18.htm
しかし、Windows でまず登場したのは、ジャストシステムからで、
一太郎2005ユーザー登録特典の「JIS X 0213:2004」対応フォント
が登場した。http://www.ichitaro.com/2005/taro/toku07.html

日本工業標準調査会のサイトが「最近、JIS X 0213:2004について問合せが
多いため」と、JIS X0213 関連の情報をまとめたページを作ったのは、
ここからリンクがあるためだろう。http://www.ichitaro.com/value/jis.html

このフォントは一太郎で標準ではなく、無償であってもオプションのフォントだ。
そうなっている一番の理由は、JIS2004 での大幅な例示字形の変更に対応して
表外漢字字体表の印刷標準字体を使ったフォントだからに違いない。
既存の文書までフォントが変わったことで、意識しないのに字体が
大きく変わってしまっては困るから。
標準のフォントを変えたり、それしか使えなくなっては 83JIS の時の二の舞。

今後マイクロソフトが JIS2004 にどう対応するのかは、はっきりしないとしても
似たような対応になるだろう。
マイクロソフトは表外漢字字体表が制定された時に、JIS漢字の例示字形について
「今回仮に例示字体・字形を差し替えたとしても、差し替えられた面区点位置に
包摂されている字体・字形をもとに実装することは依然として規格に反しない」
「こうした利用者が意識しない変更を生産者が押しつけるわけにはいかないので、
利用者が意識して表外漢字字体表の字体を選択できるよう生産者は考えざるをえない」
との見解を表明していた。もっともな見解だ。
MS の方こそ、当面は今の MS明朝・MSゴシックでやっていって、どんな利用者の要求
があるか様子みましょう、となって急がないかもしれない。

123 デフォルトの名無しさん [sage] 投稿日:2005/05/04(水) 17:33:54

人名用漢字は印刷標準字体の方で規定されている。
もともと第1・第2水準漢字を規定した JIS X 0208 の例示字形は変更されていないと
いうから、第1・第2水準の漢字の字形は、JIS としても実装としても、
2種類あることになって、必要に応じて使い分けることになっていくのか。

124 デフォルトの名無しさん [sage] 投稿日:2005/05/04(水) 18:44:59

>>119 があげていた安岡先生のコメントに
> でもJIS X 0213の「エンコーデング」の主流が「Adobe-Japan1」
> になるのだけは、個人的に勘弁してほしい。
とあった。Adobe が「エンコーデング」というのは笑えるが、けっこう強そう。

125 デフォルトの名無しさん [sage] 投稿日:2005/05/04(水) 19:30:32

>>122
某フォントスレからの情報

213 ：名無し~3.EXE ：2005/05/01(日) 04:40:02 ID:++Vj6Nxl
Meiryoは印刷標準字体になるって噂もあったが変わってないな

218 ：213 ：2005/05/01(日) 18:45:08 ID:++Vj6Nxl
違った
Adobe Japan1-5相当になってるっぽい
でもデフォルトで印刷標準字体になるって言ってた気がするんだが…。
Longhornの環境だとデフォルトで'nlck' featureが適用されるんだろうか

231 ：名無し~3.EXE ：2005/05/02(月) 19:39:51 ID:BAiJXOjJ
Longhornではこういうことができるらしい
<Inline Typography.EastAsianLanguage="NLCKanji">葛</Inline>飾区
<Inline Typography.EastAsianLanguage="JIS90">葛</Inline>城市
第64代横綱<Inline Typography.EastAsianExpertForms="True">曙</Inline>
Avalonマンセー

126 デフォルトの名無しさん [sage] 投稿日:2005/05/04(水) 19:41:07

>>124
> Adobe が「エンコーデング」というのは笑えるが、
Adobe-Japan1-0～Adobe-Japan1-6はCIDをビッグエンディアンでそのまんま並べた
エンコーディングの名称でもある

127 デフォルトの名無しさん [sage] 投稿日:2005/05/06(金) 09:15:37

> Longhornではこういうことができるらしい
> <Inline Typography.EastAsianLanguage="NLCKanji">葛</Inline>飾区
そういえば、Longhorn ではインターフェースを XML 使って構築する話、
どこかで聞いたな。そこでフォントも指定できるか。

128 デフォルトの名無しさん [sage] 投稿日:2005/05/06(金) 10:43:31

印刷標準字体を採用となれば、葛飾区は喜ぶ方の口だったっけね。
茨城県や芦屋市もいいのかな。小樽市や灘区はどうなん ? どっちでもいい ?

129 デフォルトの名無しさん [sage] 投稿日:2005/05/06(金) 13:18:54

奈良県に葛城市ができたのは知らなかったぞ。
こっちは、JIS X 0213:2004 改正で消滅した字体の方を使ってるじゃないか。
なんなら、JIS X 0208 字体を使い続ければいいけど、たいていは、いちいちフォント切り換えないぞ。

130 デフォルトの名無しさん [sage] 投稿日:2005/05/07(土) 12:45:46

JIS漢字コードとその実装の字形が2種類になるのは、表外漢字字体表からの当然の帰結。

131 デフォルトの名無しさん [sage] 投稿日:2005/05/07(土) 14:28:03

将来、文字コードのトピックにちょうどよくなりそうなので、書いておこう。

2004年10月1日、奈良県に葛城市が誕生した。奈良県北葛城郡新庄町と同郡當麻町の合併である。
なお「葛」の字形は、「北葛城郡」は漢字の『人』を書く方(JIS X 0213:2004字形)だったが、
新市名「葛城市」はカタカナのヒを書くの方(JIS X 0208字形)に変わった。
新市名称公募は、2004年1月6日から1月31日までの受付期間で行われ、以下が結果報告のサイトからの引用。

応募点数で最も多かったのは『白鳳市』で205点、次いで漢字の『人』を書く『葛城市』143点、
カタカナのヒを書く『葛城市』89点、ひらがなの『かつらぎ市』85点の順になりました。

その後、新市名称候補選定小委員会を経て、合併協議会において協議・決定された名称が、
第3位だったカタカナのヒを書く『葛城市』である。

132 デフォルトの名無しさん [sage] 投稿日:2005/05/07(土) 16:46:41

なお、なぜ第3位が浮上したかというと、新市名称候補選定小委員会が
「人」と書いても「ヒ」と書いても同じ「葛城市」だから同一と考え、
そこからパソコン等で使われている方との理由で「ヒ」と書く「葛城市」を
候補として選び、住民アンケートの結果、第1位を獲得したからである。
このとき、すでに表外漢字字体表はもちろん、JIS X 0213:2004 も公示されていたが、
候補選定小委員会で検討された様子はない。届いていなかったと思われる。

133 デフォルトの名無しさん 投稿日:2005/05/08(日) 01:08:31

>>132
「パソコン等で使われている方」でちょっと思い出した事が。
こないだ、青森県西津軽郡車力村が他と合併して「つがる市」に
なったんだけど、その時にある字名の表記が変更になった。
旧：青森県西津軽郡車力村大字下牛潟字靎舞岬（つるまいみさき/靎は雨冠の下に金+鳥（U+974E））
新：青森県つがる市下牛潟町靏舞岬（つるまいみさき/靏は雨冠の下に鶴（U+974F））
http://www.city.tsugaru.aomori.jp/tugaru/pdf/add_shariki.pdf

鶴にするならともかく、どっちも第3水準だし最初は疑問に思ったんだけど、
これって靏がWindowsの外字部分に含まれてたから表記しやすい
方に、って事だったのかもしれない。

134 デフォルトの名無しさん [sage] 投稿日:2005/05/08(日) 03:15:01

統一するってことは、世界中の文字を表現できるようにするってことだよな？
しかし、それぞれが持ち寄った文字数をみると漢字圏が大きすぎる
普段は使わない人々からすれば対応するだけ無駄が多すぎとしか思えない

言語統一を推進するほうが将来的にいいじゃんてことになる。だから無理

135 デフォルトの名無しさん [sage] 投稿日:2005/05/08(日) 12:15:56

あのね、Apple, IBM, Microsoft, Sunの様な会社は、
漢字文化圏も重要なマーケットと考えているんですよ。
君のいる三流ソフトハウスは違うだろうけど。

136 デフォルトの名無しさん [sage] 投稿日:2005/05/09(月) 00:29:37

漢字文化圏でも今や重心はあっちの国だがな。

137 デフォルトの名無しさん [sage] 投稿日:2005/05/09(月) 10:03:40

sunの禿、ギコが見れてうれしいって言ってた気がするなぁ。

138 デフォルトの名無しさん [sage] 投稿日:2005/05/09(月) 10:54:58

>>134
いいから黙ってUTF-8使っとけ

139 デフォルトの名無しさん [sage] 投稿日:2005/05/09(月) 10:56:38

なるほどねえ。Longhorn での WinFX のクラスライブラリ予定を見たら、
"FontEastAsianLanguage 列挙体" なんてのがあって、
フォントによって字形(glyphs) が異なるバージョンを並べて、選択できるようになってる。
JIS78, JIS83, JIS90, JIS04, HojoKanji と、ここまで日本向けか。
確かに、これが簡単でないと、この先は困るよ。よくわかっていらっしゃる。
日本もまだ、Microsoft の重要なマーケットですって。

140 デフォルトの名無しさん [sage] 投稿日:2005/05/09(月) 22:30:04

ちなみに Mac OS X の対応してそうな機能
http://developer.apple.com/fonts/Registry/

141 デフォルトの名無しさん [sage] 投稿日:2005/05/10(火) 00:22:53

>>140
これは最新の情報ではないよ。実際に使えるのはもっと多い。
フォントパネルからTypographyパレットを出せば、フォント毎に
使用可能なFont Featureが列挙される。
>>131
で出ている「葛」もヒラギノを使っていればどちらの字体も選べる。
これはOSXのAAT+ATSUIで「今」できる機能

142 デフォルトの名無しさん [sage] 投稿日:2005/05/10(火) 05:31:04

「Updated 2/5/98」だから最新の情報なわけはないと思ってたけどやっぱりそうか。

143 デフォルトの名無しさん [sage] 投稿日:2005/05/10(火) 05:38:41

あとはAdobe Japan1-6をJIS X 4165(ISO/IEC 10036)に登録してくれれば
インターネットでの情報交換も問題ないんだけどねえ
誰かやってくれないかなあ

144 デフォルトの名無しさん [sage] 投稿日:2005/05/10(火) 09:36:35

第3水準漢字を含む人名用漢字表のテキストを作る実験してみました。報告します。

人名用漢字表テキストを作る簡単な方法は、経済産業省から
「人名用漢字の文字符号に関する規格検討会報告」（PDFファイル）
をダウンロードし、この中の人名用漢字表をエディタ等にコピー&ペーストして
Unicode のエンコーディングで保存する方法です。これなら入力手段も不要です。
すべて BMP 内ですから、サロゲートペア対応までは必要ありません。
http://www.jisc.go.jp/newstopics/2004/041221kanjicode.htm

最初は、総務省の法令データ提供システムから「戸籍法施行規則」を見て、
そこの漢字表を調べたのですが、正式の表の形を知るにはこちらが必要でも、
内容はとんでもないものでした。一度、見比べて下さい。
http://law.e-gov.go.jp/htmldata/S22/S22F00501000094.html

水準別の一覧表としては、こちらを参照できます。
http://www.eonet.ne.jp/~kotobukispace/ddt/itaizy/jinm0409.html

145 デフォルトの名無しさん [sage] 投稿日:2005/05/10(火) 09:38:26

人名用漢字を表示するには、やはり JIS X 0213:2004 対応フォントが必要なようです。
たとえば、一太郎2005 で入手できる JS平成明朝W3[JISX0213:2004] を使えば、
第3水準漢字も含めすべて表示されますし、戸籍に認める正しい字形です。
Windows では、他のフォントを使うと第3水準の分の半分ほどが表示できませんでした。
表示される字も、字形が人名用漢字としては正しくないものが多く出ます。
たとえば、「人」と書く「葛」が正しい所が、「ヒ」と書く「葛」になるわけです。
JISの包摂基準では同じ字であっても、戸籍上の名では字形が限定される点が、
この先、人名データの扱いが難しくなる所です。
「葛城市の山田広葛くん」が誕生したら、２つの「葛」の字形は異なるのが正しい、
なんてケース、どう処理しますか。
まあ、表外漢字字体表を楯に、人名優先で有無を言わせず印刷標準字体を使うのが、
簡単だとは思ってますが。ごめんなさい、葛城市。

漢字表のコピペ先のエディタとしては、Windows XP の場合はメモ帳が適当でした。
このテキストを表示させようとして、予想以上の壊滅的打撃を受けたのがエディタでした。
第3水準漢字をきちんと表示できないものが多そうです。
Unicode のエンコーディングを読み書きできるということと Unicode 対応ということが、
まったく違うことだ、という当たり前のことが現実のものとなります。

146 デフォルトの名無しさん [sage] 投稿日:2005/05/10(火) 19:54:41

> なんてケース、どう処理しますか。
Longhornまで待つかMacを買うかだな。

147 デフォルトの名無しさん [sage] 投稿日:2005/05/11(水) 10:51:54

> Longhornまで待つかMacを買うかだな。
その限りならそうとして、MacはJIS X 0213:2004対応済? 待ち?

148 デフォルトの名無しさん [sage] 投稿日:2005/05/11(水) 11:24:31

Mac OS Xは、JIS X 0213:2000に対応すると一時言ったけど、
結局Unicodeに含まれる限りにおいて、と修正。
2004も同様。いわゆる対応はやらない。

149 デフォルトの名無しさん [sage] 投稿日:2005/05/11(水) 12:31:56

>>148 なるほど。
Shift_JIS-2004 はサポートしないと言っているということかな。

150 デフォルトの名無しさん [sage] 投稿日:2005/05/11(水) 21:27:53

レパートリが揃っているか、という意味なら現時点で対応済み。

151 デフォルトの名無しさん [sage] 投稿日:2005/05/11(水) 22:58:00

>>149
Shift_JISX0213には対応してるみたいよ。
2004は知らん。

>>150
内部がUnicodeだと、合成に対応しているかどうかが問題になる。
半濁点つきのカキクケコ(鼻濁音用)とか、半濁点つきのトツセ(アイヌ語用)とか。
そこまで注意しないと、がっかりする人が出るはめになる。

152 デフォルトの名無しさん [sage] 投稿日:2005/05/11(水) 22:59:31

セミナー：　CJKV 日中韓越情報処理
ttp://www.jtpa.org/event_in_silicon_valley/000285.html

講演は英語だってさ。

153 デフォルトの名無しさん [sage] 投稿日:2005/05/11(水) 23:16:08

最近（でもないか?）CJKV って聞く様になったけど、何で越南だけ追加されたんだろう

154 デフォルトの名無しさん [sage] 投稿日:2005/05/12(木) 00:42:46

>>151
OSXは現状で合成に対応してます。
ATSUIは正しくレンダリングするし、区切り判定も合成文字を１文字と
認識します。
このスレでも散見されるけど、合成対応は意味がないから無視という姿
勢のアプリケーションではだめですね。

155 デフォルトの名無しさん [sage] 投稿日:2005/05/12(木) 00:52:27

>154
おお。なかなか。
ところでデーヴァナーガリーなんかのリガチャはどうなるんだっけ?
あれを一律「一文字」にされると古典を扱うときヽ(`Д´)ﾉｳﾜｧｧﾝなことになるんでちと気になって。

156 デフォルトの名無しさん [sage] 投稿日:2005/05/12(木) 05:16:53

>>151
青空文庫の中の人によればShift_JIS-2004には未対応
http://www.siesta.co.jp/aozora/archives/001145.html
これは去年の話だからもしかしたらTigerは対応したのかもしれないが
そこまでは知らん

157 デフォルトの名無しさん [sage] 投稿日:2005/05/12(木) 07:51:51

包摂に対する考え方が、JISとUnicodeは違うけど、
2004なら追加文字で問題がなくなる→JIS X 0213対応ってわけ?

158 デフォルトの名無しさん [sage] 投稿日:2005/05/12(木) 11:10:39

>>150
いまはまだ過渡期とはいえ、Unicode でレパートリが揃い、使えれば
「JIS X 0213:2004 対応」と言う段階に入ってきていると思う。
少なくとも、ジャストシステムが「JIS X 0213:2004 対応フォント」
と言うときには、その意味で使っている。
このフォントで、Shift_JIS-2004 のテキストが表示できるわけじゃない。
ATOK2005も「Unicodeを使うJIS X 0213:2004 対応」での入力手段。
>>119 にあるように、規格作成当事者からも
> JIS X 0213の「エンコーディング」を捨ててしまう
は追認されてる。

159 デフォルトの名無しさん [sage] 投稿日:2005/05/12(木) 12:45:04

蛇足だけど、Unicode マンセーって言ってるわけじゃない。
Unicode導入とは非関税障壁撤廃が進んでいるというだけのこと。
ただ、それで便利にできる所は利用する。
中国の方が日本より上手に対応してきた。

160 デフォルトの名無しさん [sage] 投稿日:2005/05/12(木) 19:35:44

>>159
> 中国の方が日本より上手に対応してきた。

これマジレス?

161 デフォルトの名無しさん [sage] 投稿日:2005/05/13(金) 04:48:38

つまり中国を見習って、Unicodeの全文字を含み1文字最大4バイトで表現する
新しい文字集合とエンコーディングをJISで定義して、全ての市販ソフトに
その採用を義務付けろと主張するわけだな? >159

162 デフォルトの名無しさん [sage] 投稿日:2005/05/13(金) 17:44:09

超漢字マンセー

163 デフォルトの名無しさん [sage] 投稿日:2005/05/13(金) 20:15:32

GB18030の影響でMeは発禁

164 デフォルトの名無しさん [sage] 投稿日:2005/05/13(金) 20:21:36

>>157
2004で追加された以外の文字ではまだ問題が残ってる。
JISとUnicodeで包摂規準が明らかに矛盾してる文字の一覧とか
調べてみたいんだが面倒で挫折中。

165 デフォルトの名無しさん [sage] 投稿日:2005/05/13(金) 20:24:14

>>160
波ダッシュはチルダではないとか意地を張ったりしないで
GBKをそのまんま追認した点とか。

166 デフォルトの名無しさん [sage] 投稿日:2005/05/13(金) 23:40:13

>>165
> 意地を張ったりしないで

これってマジレス?

167 デフォルトの名無しさん [sage] 投稿日:2005/05/14(土) 10:14:12

>>155
複雑なリガチャ付き文字はマウス操作やカーソルキー移動では１文字扱いですが、
デリート時は適度に分割されて扱われます。
Devanagariは理解できないので実装の正確さは判断できません。
OSX標準の状態でもDevanagariを扱うためのリソースは揃っていますので、実物で
確かめてみて下さい。

168 デフォルトの名無しさん [sage] 投稿日:2005/05/16(月) 20:57:28

>>166
94x94の表の空き領域にも全部PUAへの写像を定義した点とか

169 デフォルトの名無しさん [sage] 投稿日:2005/05/16(月) 21:41:37

Unicode 4.1でU+2B00とU+2B01、U+2B08とU+2B09のグリフが入れ替わった件について
http://www.unicode.org/versions/Unicode4.1.0/erratafixed.html

170 デフォルトの名無しさん [sage] 投稿日:2005/05/17(火) 15:31:46

>>169を見て気づいた。
Code2001のU+1D301～U+1D303の実装がおかしい。

171 デフォルトの名無しさん [sage] 投稿日:2005/05/18(水) 06:35:24

実はU+1D300～U+1D305の文字名で地と人が入れ替わってる件について

172 デフォルトの名無しさん [sage] 投稿日:2005/05/18(水) 11:17:35

>>171
http://academy3.2ch.net/test/read.cgi/gengo/1040929046/170

173 デフォルトの名無しさん [sage] 投稿日:2005/05/18(水) 20:23:41

>>172
つーかそれ書いたの漏れ。

U+3020のナンバー君がMeiryoでポストン君に変わってる件について
http://www.post.japanpost.jp/zipcode/zipmanual/image/052-1.jpg
これは包摂の範囲なんですか? U+3004のJISマークもそのうち変わりますか?
http://www.jisc.go.jp/newjis/newjismknews.htm
ちなみにユーロ記号はデザインが変わったとき新たにコードを割り当てられた。
まあUnicodeの欧米偏重は今に始まったことじゃないけど

174 デフォルトの名無しさん [sage] 投稿日:2005/05/18(水) 21:12:03

この際だから>>169も解説しちゃおう
U+2B00～U+2B0Dの矢印類はKPS 9566をソースに北朝鮮が追加提案した(N2056)。
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2056/J1n599903.pdf
このときの並び順は右上→左上の順だった。
すくなくともPDAM2まではその順だったのだが(N2395)、
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2395.pdf
FPDAM2になってなぜか突然グリフの順番が左上→右上に入れ替わった。
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2491.pdf
後から説明しているところによると(N2926 T.7とか)、Unicodeの他の矢印では
左上→右上だったからそれに合わせたかったのだろうとか。
でもFPDAM2で入れ替えたのはグリフだけで、名前を入れ替え忘れて(証拠は
N2491のチャートに残ってる)、そのままAmendment 2=Unicode 4.0 BMPに
なってしまった。
正式にAmendmentになってしまった以上もう名前は変えられないので
グリフを入れ替えることにした(N2926)。
http://std.dkuug.dk/jtc1/sc2/wg2/docs/N2926.pdf
もうアホかと。

175 デフォルトの名無しさん [age] 投稿日:2005/05/20(金) 11:49:25

ユニコードHPが見られなくなっているんですが、
自分だけでしょうか･･･。

Unicode Home Page
http://www.unicode.org/

176 デフォルトの名無しさん [sage] 投稿日:2005/05/20(金) 12:52:42

>>175
世界中であなただけです。

177 デフォルトの名無しさん [sage] 投稿日:2005/05/25(水) 22:49:03

Ideographic Variation Sequencesキター
http://www.unicode.org/reports/tr37/tr37-1.html
# 例によって日本はシカトして事実上中国のSimplified Variant専用になる予感

178 デフォルトの名無しさん 投稿日:2005/05/28(土) 20:45:42

>>175
一週間以上たってるが、俺も見れねぇ。

179 デフォルトの名無しさん [sage] 投稿日:2005/05/28(土) 23:26:48

今見られるよ
ちなみに Announcements のトップは UCB の記事で 2005.05.06 の日付け

180 デフォルトの名無しさん [sage] 投稿日:2005/05/28(土) 23:27:12

2005.05.09 だったorz

181 デフォルトの名無しさん [sage] 投稿日:2005/05/31(火) 09:50:40

サロゲートペア、動作テスト中
呼吸深く𠹭囉仿謨(コロロホルム)や吸ひ入るる――北原白秋
呼吸深く��囉仿謨(コロロホルム)や吸ひ入るる――北原白秋

182 デフォルトの名無しさん [sage] 投稿日:2005/06/02(木) 15:10:19

サロゲートペア対応
Netscape ○
Firefox ○
MS IE6 ×

183 デフォルトの名無しさん [sage] 投稿日:2005/06/02(木) 17:54:59

>>182
IEはレジストリ弄る必要がある　ウチはIEで表示出来てるぞ

184 デフォルトの名無しさん [sage] 投稿日:2005/06/03(金) 12:05:48

>>183
そうだったのか、知らなかった。と、調べてみたものの、よくわからなかった。
レジストリの弄り方、教えて下さいませ。

185 184 [sage] 投稿日:2005/06/03(金) 12:50:10

おっと、「non BMP対応」を説明した
http://charset.info/surrogate.html を発見。
ここの「レジストリを修正してフォントを指定する」をやったら
IEで無事に表示できました。

186 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 13:21:15

>>157 >>164
Unicode での JIS X 0213対応で問題として残っているのは、包摂規準以外にもありそう。
JIS X 0213 の文字の中には、完成形での収録が認められず、
「文字合成」で表現することになった文字が25文字ある。
http://charset.info/composite.html ここにある。
１文字だけでは表現することができない文字があるわけで、
表現するには合成可能な「結合文字」を使わなければならないんだが、
これを全部正しく処理できるシステムとフォントという条件は、かなり敷居が高い。
表示できても、「正規化」に対応していないと問題が起こるし。
今は厳しすぎかも。とりあえず Y.OzFont4 がベストなのかな。
Macならうまくいくか?

187 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 13:37:37

>>186
それは規格に適合してない処理系だから、
>>157 >>164の話とはレベルが全然違うでしょ

188 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 14:14:45

そう。「規格に適合してない」という実装の問題が一つあって、
これは、きちんと実装されれば解決の話。確かにレベル違うな。

一方、U+309Aの合成可能な半濁点を使わなければ、鼻濁音等が表現できないんだが、
これは JIS X 0213にはなかったりするズレは、
やはり Unicodeと JIS X 0213の関係の問題でもあるんじゃないかと
思ったりするが、どんなもんなんでしょう。
JIS X 0213:2004対応を言うジャストシステムの平成書体で、
U+309A が合成可能になっていないのはバグだろうか。

189 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 14:25:37

ジャストシステムの書体使ってるけどU+309Aはちゃんと合成できるよ
(ただしJIS X 0213に規定されてる組み合わせだけ)
そんなことよりこの書体の問題はU+02EFとU+02F0に規格違反の文字が
入ってること

190 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 14:37:07

U+02EFとU+02F0 にこれがあるのは知らなかった。
Y.OzFont4 もここに同じグリフがあるんだけど、どうしてなんでしょう?
事情おしえて。

191 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 14:48:24

あれ。
U+02EF MODIFIER LETTER LOW DOWN ARROWHEAD
U+02F0 MODIFIER LETTER LOW UP ARROWHEAD
となってて、どちらも Introduced in Version: 4.0 とある。
規格になったんじゃないでしょか。

192 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 14:59:41

規格になっているのなら、
これとJIS X 0213の声調記号 1-11-69 (U+02E9 U+02E5) と 1-11-70 (U+02E5 U+02E9) が
文字合成でできたりすることとの関係は、どうなってんだろう。
同じなら、どっちが正規化形式なのか調べておこう。

193 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 15:10:33

>>190-192
U+02EF MODIFIER LETTER LOW DOWN ARROWHEAD
U+02F0 MODIFIER LETTER LOW UP ARROWHEAD
はUnicodeのチャート見れば分かるけど
http://www.unicode.org/charts/PDF/U02B0.pdf
JIS X 0213の1-11-69、1-11-70とはまったく違う文字。
じゃあ何でY.OzFont4やジャストシステムの平成書体がそこにグリフ入れてるかというと
たぶんJIS X 0213:2000のカッコ付きUCSがその値だったからだと思うけど
Unicode的には完璧に違反。

194 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 15:12:07

ちなみにカッコ付きUCSは単なる「参考」であって、
JIS X 0213:2000では1-11-69、1-11-70には対応するUCSは存在しないと
「規定」されていたので、いちおう違反はしていないという建前

195 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 15:30:57

なるほど。
合成の方の 1-11-69 (U+02E9 U+02E5) と 1-11-70 (U+02E5 U+02E9) とは
Unicode 的には無関係ということか。
こういうケースも、包摂範囲とは認められない違反となるのか。
でもって、これらのフォントでは、無関係だけどグリフ置換でこれを使うために、
あえてこの形で置いてあるわけかな。

196 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 15:42:34

いやこの場合まったく包摂の余地ないし。なんでもかんでも多重にグリフを付与できる
魔法の言葉じゃないですよ?

グリフ置換するためにコードを与える必要はない。
Y.OzFont4は独自仕様であえて与えている(技術的問題ではない)と作者が明言している。
ジャストシステムのほうは知らないけど。

197 デフォルトの名無しさん [sage] 投稿日:2005/06/26(日) 15:47:45

そうなんだ、いろいろ教えてもらいました。ありがとう。

198 デフォルトの名無しさん 投稿日:2005/06/29(水) 09:18:53

"こんにちは"とだけ書いたUTF-8なテキストファイルを作成するコンソールプログラムを作りたいのです。
環境はMSVC6.0でして、プリプロセッサ定義の_MBCSを消去して_UNICODEとUNICODEを追加し、リンクオプション・エントリポイントには「wmainCRTStartup」を設定しました。
結果は文字化けしたものが出力されてしまいます。何がいけないのかご教授願えますでしょうか。

#define tstring wstring
#define tofstream wofstream

// IMBUE_NULL_CODECVTマクロについては　ttp://www.codeproject.com/vcpp/stl/upgradingstlappstounicode.asp）
// からコピーしました。長いので略します。

void _tmain(int argc, TCHAR* argv[], TCHAR* envp[])
{
USES_CONVERSION;
tofstream zFileOut ;
IMBUE_NULL_CODECVT( zFileOut )
zFileOut.open( "C:\\temp\\test.txt", ios::out|ios::binary ) ;
zFileOut << _T("こんにちは");
}

199 デフォルトの名無しさん [sage] 投稿日:2005/06/29(水) 18:34:44

>>198
そもそもそこのURLの中にUTF-8という言葉も出てこなし、UTF-16から8への変換をしているコードも見当たらない。
肝心のクラスもNullCodecvtっていかにも何もしなさそうな名前だ。（実際そうだし）

つまりそこのはASCII限定だろ。

200 198 投稿日:2005/06/30(木) 11:09:52

>>199
すみません、UTF-8とUTF-16の違いもわかっていませんでした。
少し調べたのですが、UNICODEは文字セットの呼称、そのためのエンコード方式にUTF-8（可変マルチバイト）,
UTF-16（固定マルチバイト）などがある、ということでよいでしょうか。
また、リンク先の記事では、メモリ中のUNICODE（16ビット固定？）の文字をwfstreamでファイル出力すると
ASCII文字のコードが8ビットにされてしまうことが問題にされているのですね。
質問を変えさせてください。

(1)　"<?xml version="1.0" encoding="UTF-8"?>"といったようにUTF-8が指定されているXMLファイル
がありますが、これはそのファイル自体の文字コードがUTF-8でなければならないことを意味するのでしょうか。

(2) STLのfstreamでUTF-8形式のファイルを作成したいのですが以下のコードでは
うまく行きません。解決方法をご教授願えませんでしょうか。
（環境はMSVC6です。プリプロセッサで"_UNICODE"を定義したうえエントリポイントも
先の投稿の通り変更しています。）

void _tmain(int argc, TCHAR* argv[], TCHAR* envp[])
{
wofstream zFileOut ;
zFileOut.open( "C:\\temp\\test.txt", ios::out) ;
zFileOut << _T("こんにちは");}
}

201 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 11:47:11

(1) ファイルは別のエンコーディングでも構わない。
ただ、そのXMLデータの場合、処理系が解釈する場合はUTF-8と想定する。
処理系に渡す際、UTF-8エンコーディングに変換するのは、
XML処理系を含むシステムの責任。

例えば、JIS X 0208に含まれる文字しか使われていないとして、
ファイルはShift_JIS, EUC-JP, ISO-2022-JPエンコーディングで、
処理系に渡す際に(encoding="UTF-8"と宣言されているので)UTF-8に変換して
渡すシステムも一向に問題がない。

これは例えばhttpによるContent-Type: text/xml; charset=XXXも場合も同様。
http://www.w3.org/TR/2004/REC-xml-20040204/#sec-guessing-with-ext-info

ドキュメントエンティティと外部表現の違い。
ドキュメントエンティティがどのような外部表現をもつかXMLの仕様が関与するところではない。

202 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 13:19:15

>>200
(1)XMLパーザにそのファイルをそのまま渡すのなら、UTF-8でなければ
ならない。201さんも書いているようにUTF-8でなくてもいい場合も
あるけど、ややこしいのでUTF-8にしときなさい。

(2)Windowsだったら
WideCharToMultiByte(CP_UTF8, 0, L"こんにちは", -1, dest, destlen, NULL, NULL);
てな感じでUTF-8にしてからofstream(wofstreamではない)に出せばいい
んじゃないかな。C++標準の範囲でUTF-8化できるかどうかは知らない。

203 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 14:33:53

上のURL本文のプログラムは、確かにUTF-8化ができる様子ないな。UTF-16だけでしょ。
あとのスレッド http://www.codeproject.com/vcpp/stl/upgradingstlappstounicode.asp#xx557556xx
の codecvt_UTF16_to_CESU8 あたりがUTF-8化のものなのか、試したら。
ここのCESU-8とか"UTF-8 light"って、どんなものかは知らないが。

204 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 15:11:37

CESU-8 で検索するといろいろ出るな。
UTF-8 ならsarrogate対応を4バイトでするところを、
3バイト×2 = 6バイトにしておく方法か。

205 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 20:53:59

CP_UTF8にはセキュリティホールがある罠

206 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 21:11:09

KPS9566を拡張すれば結構いい感じの文字コードになるかも。

207 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 21:25:28

KPS9566ってどっちかというと最悪に近いと思うけど
(将軍様専用ハングルの件は置いたとしても)

208 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 21:39:54

そうかもしれんな…

209 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 22:15:25

>>205
マジ？

210 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 22:34:43

詳しくはほぼ前スレに書いた

211 デフォルトの名無しさん [sage] 投稿日:2005/06/30(木) 22:43:07

>>210
読んだ。なるほどと思った気がする。

212 198 投稿日:2005/07/01(金) 08:51:51

アドバイスありがとうございます。
(1)については了解いたしました。ファイルはUTF-8のエンコーディングで行きたいと思います。
>>202
以下のようなコードを試して見ましたがやはり文字化けしたものが出力されます。
（結果のファイルをWinのノードパッドでUTF-8形式でオープンして確認しました。）

void _tmain(int argc, TCHAR* argv[], TCHAR* envp[])
{
ofstream zFileOut;
char dest[1024];
WideCharToMultiByte(CP_UTF8, 0, L"こんにちは", -1, dest, 1000, NULL, NULL);
zFileOut.open( "C:\\temp\\test.txt", ios::out ) ;
zFileOut << dest << endl;
}

デバッガではdestのアドレスに以下のようなコードが書き込まれていました。
E2 80 9A C2 B1 E2 80 9A C3 B1 E2 80 9A C3 89 E2 80 9A C2 BF E2 80 9A C3 8D 00
ちなみにC形式でのFILEを用いて出力してみましたが、まったく同じ結果が得られました。

>>203
こちらも試しましたがやはり文字化けしてしまいます。

なにかさらにヒントがあればご教授ください、、、。

213 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 09:22:44

そのソースは何エンコーディングでファイルに保存されているの?
WideCharToMultiByte()のWideCharっていうのは、そのエンコーディングのことなの?
# なおそのAPIのことは全然知りません。

214 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 10:32:39

>>212
こぴぺして試したらきちんとUTF-8で保存されていた。
ソースはSHIFT-JISで保存。

215 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 11:06:51

いろいろやって出来ればいいんだけど、
その場合、UTF-8にしたくて標準C++の範囲でよいなら、簡単な話としては、
ソースファイルをUTF-8で保存してコンパイルが通るか、という問題なんじゃないの。
MSVC Toolkit 2003(フリーのやつ)でやる限り、
入門的な標準C++プログラムをUTF-8(ただしBOM付き)で保存すれば、
> "こんにちは"とだけ書いたUTF-8なテキストファイルを作成するコンソールプログラム
は出来てしまうんだけどね。MSVC6.0は知らないけど。
gcc だと、BOMなしのUTF-8にすればコンパイルできるようだな。

216 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 12:54:33

>>214
そのコンパイラはShift_JISを理解して、
wchar_tなL"こんにちわ"の文字列リテラルを構成するんだね。

wchar_tはUCS-2なのかな?

217 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 13:34:10

>>212
たしかに、おかしいね。
L"こんにちは" が期待通りの値になってないのかな?

218 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 13:50:23

WideCharToMultiByte() というのは、名前は変だけど、
エンコーディング変換をするWin32APIを使っているんでなかったっけ。

219 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 17:04:02

>>212
俺はそのコードでうまくできたけど。

220 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 21:24:42

VC6とBCC5.5ではうまくいくことを確認した。
どちらもソースはSHIFT-JISで保存。

221 198 [sage] 投稿日:2005/07/01(金) 22:21:50

アメリカに在住しておりまして、返事が遅くなりすみません。

コードを試していただいた方々ありがとうございました。
大切なことを言い忘れていましたが、私の環境は英語版XP上の英語版MSVC6なんです。
XPのシステムロケールはJapaneseにしています。
（コントロールパネル->Regional and Language Options->Advancedタブ->Language for non-Unicode programsにJapaneseを指定）
ソースファイル自体はSHIFT_JISで保存されているように思われます。
（Meadowのモード行でSと表示されています。）

222 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 22:31:56

いっそのこと、自前で書いてしまうのはどうか？
UTF16とCESU-8の相互なら大した手間ではないと思う。

223 デフォルトの名無しさん [sage] 投稿日:2005/07/01(金) 23:57:27

>>221
L"申し上げます"がメモリ内でどうなっているか、hex dumpするとどうなってる?

$ printf 申し上げます | iconv -f euc-jp -t shift_jis | hexdump -C
00000000 90 5c 82 b5 8f e3 82 b0 82 dc 82 b7 |.\..........|

つーわけで2byte目がbackslashなんだけど処理できている?
出来てないならコンパイラがShift_JISを扱えないね。

224 デフォルトの名無しさん [sage] 投稿日:2005/07/02(土) 00:30:55

echo "こ"(cp932で"82 B1") | iconv -f cp1250 -t utf-8 | hex
E2 80 9A C2 B1
cp1251でもcp1252でも同じだからそういったヨーロッパ言語を使うようになってんじゃないの。
vcがosの言語の設定を見てないのか、設定方法が間違ってるか...。

225 198 [sage] 投稿日:2005/07/02(土) 07:25:45

>>222
私の技量ではちょっと遠慮したい感じです。

>>223,224
確かに224さんの"こ"のメモリダンプ結果が私がデバッガで見たものと同じですね。

> vcがosの言語の設定を見てないのか、設定方法が間違ってるか...。

みたいですね。XPのシステムロケール以外に設定する項目を知らないのですが、
いずれにしてもプログラム的には問題なさそうなので（みなさんの環境では動いているようですし）、
設定あたりの線で調べてみたいと思います。ありがとうございました。

226 デフォルトの名無しさん [sage] 投稿日:2005/07/02(土) 08:18:33

日本版のVC++が特別版(Shift_JIS対応)ってことはないかな?

　wchar_t *p = L"申し上げます";
　for (char *q = (char *)p; *q != '\0'; q++) {
　 printf("%02x ", *q);
　}
printf("\n");

するとどうなるの?

227 198 [sage] 投稿日:2005/07/02(土) 10:35:50

英語版MSVCのソースエディタ内で「申し上げます」とタイプすると変換を確定した時点で
「\し繧ｰます」などと表示されてしまいます。Meadowで編集した上でセーブし（この際には一応
SHIFT_JISでセーブされているように見えます）、コンパイルすると

warning C4129: '�' : unrecognized character escape sequence

というwarningが出ます。warningをコピペしましたが'\202'は画面上では'・'のように見えます。
一応ビルドは終了するので実行するとコンソールには

ffffff90

と表示されました。何かおわかりになりますでしょうか。

228 198 [sage] 投稿日:2005/07/02(土) 10:38:11

>「\し繧ｰます」などと表示されてしまいます。Meadowで編集した上でセーブし（この際には一応

MSVCのエディタでは「申し上げます」が入力できないので、代わりにMeadowで編集した、という意味です。

229 223=226 [sage] 投稿日:2005/07/02(土) 12:28:48

>>227
そのコンパイラ/統合環境はShift_JIS対応じゃないです。
「申」の2byte目にあるbackslashを処理できてない。
m18nされてないのでしょう。

一応、L"文字列"を解釈しようとしているようですが。
とりあえずヘルプを読んだ方が良さそう。
実はwchar_t文字列リテラルに対応してないか、UTF-8辺りに固定なのか。

230 デフォルトの名無しさん [sage] 投稿日:2005/07/02(土) 22:16:29

VCのコンパイラは日本語版でもShift_JISにL10Nされてるだけで、UTF-8すら使えない。
英語版だとどんなMBCSも使えないんでは。

231 223=226 [sae] 投稿日:2005/07/03(日) 01:13:29

日本版は過去の経緯という事情でShift_JISオンリーになっていても、
米版はUTF-8利用可能という可能性がないでもないが…さて

232 デフォルトの名無しさん [sage] 投稿日:2005/07/03(日) 03:04:22

どのバージョンか忘れたけどutf-8なソースをコンパイルしようとすると
「utf-8には対応してません」的なメッセージを出してたときがあったな。
.NET Framework SDK v2.0のcl.exeを試してみたら
cp932のソースは問題なくコンパイルできた。
utf-8のソースはBOMなしだとcp932として扱うみたい(つまり文字コードの判定はしない)。
BOM付きだとutf-8として認識した。ただし、
char str[] = "こんにちは";
みたいな普通の文字列はcp932に変換された状態でstrに入る。
ワイド文字リテラル(L"こんにちは")は正しく変換された。

233 デフォルトの名無しさん [sage] 投稿日:2005/07/03(日) 07:12:37

WindowsはそもそもUTF-8なMBCSはサポートしてないからな

234 デフォルトの名無しさん [sage] 投稿日:2005/07/03(日) 09:15:51

cp65001とかあるし脈はあると思うけどね。実際にちょっとだけ機能するし。
sjis依存なコードがたくさんあるから実用できないだろうけど。

235 デフォルトの名無しさん [sage] 投稿日:2005/07/04(月) 05:25:45

残念ながらシステムのコードページとしては利用できない。APIの仕様上不可能。
たとえばWM_IME_CHARは1文字が3バイト以上になることをまるっきり考慮してない。
(64ビットWindowsならWin16を捨てたから実装可能かも)
*.nlsは1文字2バイト以下のDBCS←→UCS-2の変換しかサポートできない構造だし。
GB18030も同様にシステムのコードページには設定できない。

236 デフォルトの名無しさん [sage] 投稿日:2005/07/04(月) 09:32:17

今のVC++2003のサブセットにあたる VC++ Toolkit 2003はフリーダウンロードだから、
試す価値ある。英語版しかないから、日本でもこれ使ってるよ。
http://msdn.microsoft.com/visualc/vctoolkit2003/
これはUnicodeのソースファイルを解釈できる。
UTF-8 でも UTF-16 でもいい。ただし、BOMがないと判定に失敗して
コンパイルエラーになることが多い。
この場合、C++でやる限り、文字列リテラルやstringは、
実行ファイル内ではUTF-8になっている。
だから、ofstream のファイル出力もUTF-8になる。
cout出力からファイル名・パス名までUTF-8になってしまうので、注意いるが、
リダイレクトでUTF-8を得るには好都合な時もある。
ソースがUTF-16でも結果はUTF-8。ソースがShift_JISなら結果もShiff_JIS。

237 デフォルトの名無しさん [sage] 投稿日:2005/07/04(月) 10:18:14

> 実行ファイル内ではUTF-8になっている。

"UTF-8の文字列リテラル"
L"UTF-8の文字列リテラル"

のどっちが?

238 デフォルトの名無しさん [sage] 投稿日:2005/07/04(月) 10:54:25

これは標準C++と.NET Frameworkだけがサポートされるバージョンだから、それが前提で
"UTF-8の文字列リテラル"
の方

239 238 [sage] 投稿日:2005/07/04(月) 12:27:54

簡単なサンプルさらしちゃえば、これをUTF-8(BOM付き)かUTF-16で保存して実行すれば、
UTF-8(BOM付き)のテキストができる、ということで。
標準C++だけの VC++ Toolkit 2003では、文字列に L つけたらエラーになっちゃう。

#include <iostream>
#include <fstream>
#include <string>
using namespace std;

int main() {
char bom[] = {0xEF, 0xBB, 0xBF}; // UTF-8のBOM
string s = "こんにちは。𠹭囉仿謨はnon-BMPテスト";
ofstream out("test.txt");
out.write(bom, 3);
out << s << endl;
}

240 デフォルトの名無しさん [sage] 投稿日:2005/07/04(月) 14:14:43

>>238
要するに「何もしてない」って事だと思うが、
BOMがないとどうしてコンパイルエラーになるんだろう…
一応コードポイントの有効範囲くらいは調べているのだろうか。

241 デフォルトの名無しさん [sage] 投稿日:2005/07/04(月) 21:29:12

シグニチャが無いと、Shift_JISだとしてリテラル解釈するから
文字列が不完全になってコンパイルエラーになるのよ。

シグニチャありだと一応そこら辺を処理しているように見えるけど、
実はLatinとして扱っているだけという可能性もある。

242 デフォルトの名無しさん [sage] 投稿日:2005/07/05(火) 08:44:25

>>241
えーと、では、>>236にあるように英語版しかないけど、
そのコンパイラはソースのエンコーディングをShift_JISとして解釈するって事ですか?
OSのロケールにしたがって、l10n処理しているんでしょうか。

"申"とか大丈夫なのかな? (2byte目がbackslashだけど)

243 デフォルトの名無しさん [sage] 投稿日:2005/07/05(火) 09:09:02

BOMがないとシステム設定のコードページを優先して、
Unicodeエンコーディングの判定はBOM付けてくれれば可能だから、
BOMなしのときは、Unicodeだとの判定は絶対確実でないとされないのかな、
とか推測してみたりする。

244 デフォルトの名無しさん [sage] 投稿日:2005/07/05(火) 09:21:52

>>243
Windowsはメモ帳なんかもBOM付けるから、その仕様だと自然な感じですね。

245 デフォルトの名無しさん [sage] 投稿日:2005/07/05(火) 11:02:30

VisualStudio 2003付属のCL.exeは、シグネチャ付きUTF-8のソースなら
MBCS文字列もワイド指定付き文字列も、ちゃんと処理しているみたいよん。

246 デフォルトの名無しさん [sage] 投稿日:2005/07/05(火) 13:08:36

>>239 のサンプルコードは、Cygwin版のgcc や MinGW でも、
BOM無しUTF-8で保存してコンパイルできた。結果は同じ。
こちらは、どうエンコーディング判定してるのかな。

247 デフォルトの名無しさん [sae] 投稿日:2005/07/05(火) 13:20:00

gccのmbchar拡張がなければ、{
　gccはBOMさえ外してあればスルーでしょ。要するに判定なし。
　これはどの環境でも同じ。
}

248 デフォルトの名無しさん [sage] 投稿日:2005/07/05(火) 13:37:26

そうでしたか。判定しなくていい仕様なのか。

249 デフォルトの名無しさん [age] 投稿日:2005/07/30(土) 15:58:16

マイクロソフトは「Windows Vista」で日本語フォント環境を一新。
JIS X 0213:2004規格に対応するとともに、
画面上での可読性を大幅に向上させるまったく新しいデザインのフォント（フォント名：メイリオ）
開発を開発中と発表。
ttp://www.microsoft.com/japan/presspass/detail.aspx?newsid=2353
ttp://pc.watch.impress.co.jp/docs/2005/0729/ms.htm
ttp://www.itmedia.co.jp/news/articles/0507/29/news049.html

【社会】"混乱大丈夫？" 次期OSウィンドウズ・ビスタで漢字１５０字形を変更
ttp://www.yomiuri.co.jp/national/culture/news/20050729i306.htm
http://news19.2ch.net/test/read.cgi/newsplus/1122621294/l50

Windows Vista 日本語フォント環境を一新
http://pc8.2ch.net/test/read.cgi/pcnews/1122649116/l50

250 デフォルトの名無しさん [sage] 投稿日:2005/07/30(土) 16:07:47

>>249

Visa、 XP以前の混在企業システム環境だと、オワットル。

251 デフォルトの名無しさん [sage] 投稿日:2005/07/30(土) 16:17:04

＞開発を開発中

＞Visa

252 デフォルトの名無しさん [sage] 投稿日:2005/07/30(土) 19:29:27

よろこんでコピペする前に>>122-あたりから嫁
さんざん既出だし前の字体が使えなくなるなんてこともない

253 デフォルトの名無しさん [sage] 投稿日:2005/07/30(土) 20:37:53

MACが無視されているのはなぜ？

254 デフォルトの名無しさん [sage] 投稿日:2005/07/31(日) 00:40:20

>>253
合成対応やcomplex script対応やJIS X 0213対応や字形の沢山入ったフォント
やらOSXでは何年も前に実装済みなのであまり話題がありません。

255 デフォルトの名無しさん [sage] 投稿日:2005/08/01(月) 23:10:12

Vista beta1を調べてみた結果
・Meiryoは>>125とか>>139な感じ
・新ＭＳゴシック/ＭＳ明朝はグリフ自体が入れ替えられてて
　OpenType Featureはccmpとvertしかない
　(ほぼ一太郎の2004JISフォントと同等)
・Uniscribeに
　ScriptGetFontAlternateGlyphs
　ScriptGetFontFeatureTags
　ScriptGetFontLanguageTags
　ScriptGetFontScriptTags
　ScriptItemizeOpenType
　ScriptPlaceOpenType
　ScriptPositionSingleGlyph
　ScriptShapeOpenType
　ScriptSubstituteSingleGlyph
みたいなAPIが追加されていて、Win32からでも字形は制御できるらしい

256 デフォルトの名無しさん [sage] 投稿日:2005/08/02(火) 20:49:48

Vistaのメモ帳で「葛飾区」と打って、フォントをMeiryoに切り替えるだけで
文字化けするわけだがいいのかこれで?

257 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 00:28:25

>>256
同じ文字コードに、フォントによって違う字形が割り当てられているのはいやだ。
特に、住所管理とか人名管理とかそういうシステムではどうすんだ。
葛飾区役所のシステム担当とか終わりそうだ。

258 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 00:58:34

葛飾区の役人は今やってる方法のまま暮らしていれば問題ない。

259 デフォルトの名無しさん 投稿日:2005/08/03(水) 01:07:11

>>258
中途半端にえらい役所のやつが、VistaのＰＣを勝手に導入して
「こらー、これで俺のところの区の字がでねーぞ、なんとかしろー」
とかいいそうだ。

260 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 01:35:07

>同じ文字コードに、フォントによって違う字形が割り当てられている

それは当たり前なのでは?

261 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 01:41:31

717：login:Penguin：2005/07/30(土) 10:41:03 ID:Hd+4jW+B
>>716
CP932の定義が変わって、
CP932とUnicodeのマッピングが変わるわけでしょ?
とりあえず>>711のPDFくらい読めよ。

http://internet.watch.impress.co.jp/www/column/ogata/sp13.htm
でも概略は理解できるよ。

JIS X 0208の1978, 1983, 1997が同じ文字集合を規定している
というセンスだと理解不可能。

262 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 04:38:15

> 特に、住所管理とか人名管理とかそういうシステムではどうすんだ。
そんなシステムでフォントすら規定してないほうがどうかと思うが…

263 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 04:48:06

>>261
リンク元くらい書いてほしいなあ。login:Penguinで分かったけど
http://pc8.2ch.net/test/read.cgi/linux/1003159137/717

> CP932とUnicodeのマッピングが変わるわけでしょ?
変わんねーよ(Shift_JISではJIS X 0213の2面の漢字とか使えない)
PDFのどこを読んだらそういう結論に到達するのやら
つーか「考え方」の5-(7)ってどれだよ

264 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 04:54:08

>>259
逆だろ? 葛飾区は今まで出せなかった字がVistaでは出るようになる。
困るのは葛城市。しかもJIS字体にした理由が「PCで出しやすいように」。
合併したのは2004年。もうアホかと。

265 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 05:16:53

文字集合が違うんだから同じコードで字形が違っても全然不思議じゃない。

REVERSE SOLIDUSに円記号が割り当たってる方がよほど奇妙なんだけど
>>257はそっちは問題にせんの?

266 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 05:27:43

MeiryoのU+005CはちゃんとREVERSE SOLIDUSの字形になってるけど
システムの言語を日本語にするとU+005Cでわざわざ円記号が表示されるように
何か特別な細工をしてる模様。
円記号以外の英数字はClearTypeが掛かってるのでMS UI Gothicじゃないのは確実。
そこまでやりますか

267 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 05:31:13

なぜか文字集合の違いにしたがってる奴がいるようだが
同じJIS X 0208:1997やJIS X 0213:2004で字形が違ってたってぜんぜん不思議
じゃないのだが。喪前らこそ規格票読んでるのか?
参考:
http://toyohira.asablo.jp/blog/2005/07/30/38169

268 256 [sage] 投稿日:2005/08/03(水) 05:55:02

いちおう漏れの疑問の意図を説明しとくと、
規格に適合してるか否かを聞きたかったんじゃなくて(適合するのは分かってる)
新ＭＳゴシックとMeiryoはどちらも同じシステム上に標準で存在する
2004JIS対応を主張するフォントなのに、切り替えただけで文字化けが発生する
仕様なわけだが(規格上はもちろん問題ないが)、
MicrosoftはVistaに標準で存在する日本語フォントだけでもなんとかする気は
なかったのか? ってことなんだが。
文字化けが発生する「仕様」であることを世間に思い知らせるためあえてこう
したのかもしれんが、互換性を無視してそこまでdrasticな考えができるなら
IEはとっくの昔にCSS完全準拠になってるはずだし。

269 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 06:59:16

>>268
まだVistaがβだからであって、正式版までには解消されている、って期待はないの？

270 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 07:04:13

>>269
マジでそう期待したい。
ちなみに正式版ではどう解消されてる(する余地がある)と思う?

271 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 10:21:48

表外漢字字体表の字体に変更すると、
JIS X 0213と矛盾が生じる文字についてはどうなっているの?

272 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 11:39:59

>>271
その28文字については、表外漢字字体表の字体変更しないんじゃない?
当たり前だけど。

http://www.yomiuri.co.jp/national/culture/news/20050729i306.htm
にもある168文字の内訳ってどこかに書いてある?

273 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 12:25:41

補助漢字を無視したいところだけど、
補助漢字はUnicodeに入っているしねー。

274 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 16:34:57

>>263
> つーか「考え方」の5-(7)ってどれだよ

http://www.jsa.or.jp/domestic/instac/h13reports/JCSmain_Web.pdf

じゃないかな。(読んだことがある人ならすぐピンと来るはず)

http://internet.watch.impress.co.jp/www/column/ogata/sp13.htm
http://internet.watch.impress.co.jp/www/column/ogata/sp13/hyou2.htm
に、その要約があるけど、(調査報告には例示字体の表もある)
その9つのケースについて、現状のVista&Meiryoでどうなっているか、
誰かまとめてくれる人いませんかね? (僕は残念ながら持ってないです…)

275 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 17:13:03

>>274
＞現状のVista&Meiryo

要はOpenTypeの'jp04'グリフってことじゃねえの？
そうであれば、基本はJIS04が変更したとおり。
ただし「微細な字形差」に関しては無視しているものもある。

276 デフォルトの名無しさん [sage] 投稿日:2005/08/03(水) 21:57:21

>>272
> 168文字の内訳
JIS X 0213:2004に関する経済産業省の報道発表
ttp://www.jisc.go.jp/newstopics/2005/040220kanjicode.pdf

277 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 03:36:56

>>275
なんとMeiryoには'jp04' featureがない('nlck'はある)。AJ1-5相当だから
当然かもしれんが。
正式版までにサポートされるのかサードパーティー製のAJ1-6フォントを
インストールしたときに備えてAPIの口のみ用意してるのかは知らん

278 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 03:41:12

>>271
別区点に追加されたほうの面区点を使えってこと

279 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 03:47:56

> じゃないかな。(読んだことがある人ならすぐピンと来るはず)
5-(7)って数字の根拠が分からない。そんな章番号とかはないみたいだし
> その9つのケースについて、現状のVista&Meiryoでどうなっているか、
Meiryoは単なるAJ1-5相当のOpenTypeフォント(要するにデフォルト字形は90JIS)。
だから>>256のような「文字化け」が起きる

280 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 04:12:15

> 5-(7)
ようやく分かった。2.1.5 (7)のUCS互換漢字10文字のことか。
当然2004JIS・ISO/IEC 10646:2003がやったとおりのことをやって対応
(字形変更ではなく対応するUCS符号位置のグリフを追加実装)。ヒラギノなんかと一緒。

281 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 04:28:20

Shift_JISのtext/plainやtext/htmlはどう扱うの? > Vista
(CSVなど全般的に)

>>280でいうと、追加した文字の方になったわけ?

282 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 04:42:51

>>281
CP932のマッピングに一切変更はない。
UCSのレパートリとしてしかサポートしないとずっと言い続けてた通り

283 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 04:46:28

もちろん「葛」みたいに字形が変わった字は結果的にShift_JISでも変わるけど、
それはたまたまで印刷標準字体をShift_JISで完全にサポートする気ははじめから
ないということ。

284 デフォルトの名無しさん 投稿日:2005/08/04(木) 23:33:35

メーラーを作っているのですが、受信したメールが正しく表示されません。
JIS→Shift_JISの変換を勉強のためにも自力で変換したいのですが、
どう変換していいのか分かりません。
JISの文字コードをShift_JISに変換するときのアルゴリズムのヒントを教えていただけませんでしょうか。
1byteずつ読み込んでいって変換していかなきゃいけないというところまでは分かります。

285 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 23:47:59

勉強のために自力で変換したいという人が
検索もせずに質問するとはこれいかに

286 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 23:50:32

そのくらい調べられない奴には絶対にメーラーなんぞ作って欲しくは無い罠。

287 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 23:52:21

>>284
マジでやめてくれ。

288 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 23:55:26

言語は何よ?
>>8でどうなのよ。

perlならEncode.pmな。

289 デフォルトの名無しさん [sage] 投稿日:2005/08/04(木) 23:58:24

Shift_JISのままBase64でエンコードしたほうが被害は少なそうだ。

290 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 00:06:50

iso-2022-jpと書けない時点で終どうしようもない。

291 284 投稿日:2005/08/05(金) 00:31:17

＞勉強のために自力で変換したいという人が
＞検索もせずに質問するとはこれいかに
ここ一週間調べたのですが、今ひとつ理解できるものが見つからないんです。
かなり運が悪いようです。

＞そのくらい調べられない奴には絶対にメーラーなんぞ作って欲しくは無い罠。
メーラーが初めてなだけでネットワーク関係のプログラミング経験は豊富です。
バイトですが十数件のCGIも手がけました。
フリーで配布しているものもあり、結構多くの方に利用していただいています。
CGIはPerlで組んでいて、jcode.plを使っていました。

今回はC++で作っています。

292 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 00:34:11

とりあえず
つ libiconv

293 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 00:35:00

……てゆーか、jcode.pl読めばわかるんジャマイカ?

294 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 00:35:17

CGIってネットワークプログラミングに含まれていたのか。

この板の「ネットワークプログラミング」スレでCGIなんて書き込んだら
鼻で笑われるだけだけどな。

295 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 00:42:33

>>284
バベルじゃダメ？

296 デフォルトの名無しさん 投稿日:2005/08/05(金) 00:57:11

> フリーで配布しているものもあり、結構多くの方に利用していただいています。

フリーCGIで日本語(もちろん文字コードでんでんで)の扱いがクソレベルな物ばかり掴まされている漏れなので、
よろしければお前のCGIの配布サイトを教えてくだちい。

297 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 01:12:38

> かなり運が悪いようです。

悪いのは運ではなくて頭

298 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 01:44:02

>>284
inがJIS文字列で処理結果がshiftjis文字列のはず。バグあるはず。
そもそもcharがunsignedではない環境ではあぼーんする恐れあり。
std::string jis2sjis(const std::string& in) {
bool is_ascii = true;
std::string::const_iterator begin = in.begin(), end = in.end();
std::string out;
while (begin != end) {
if (*begin == 0x1B) {
if (*(begin + 1) == 0x24 && *(begin + 2) == 0x42) is_ascii = false;
else if (*(begin + 1) == 0x28 && *(begin + 2) == 0x42) is_ascii = true;
begin += 3;
continue;
}
if (is_ascii) out.push_back(char(*begin));
else {
unsigned char hib = unsigned char(*begin), lob = unsigned char(*++begin);
lob += (hib & 1) ? 0x1f : 0x7d;
if (lob >= 0x7f) ++lob;
hib = unsigned char(((hib - 0x21) >> 1) + 0x81);
if (hib > 0x9f) hib += 0x40;
out.push_back(char(hib));
out.push_back(char(lob));
}
++begin;
}
return out;
}

299 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 01:47:50

馬鹿は出てくるなよ…

300 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 01:49:28

>>291
完全に経験不足(ﾜﾗ

301 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 01:54:45

CJKV日中韓越情報処理
http://www.amazon.co.jp/exec/obidos/ASIN/4873111080/
Unicode標準入門
http://www.amazon.co.jp/exec/obidos/ASIN/4798100307/
国際化と日本語処理
http://www.amazon.co.jp/exec/obidos/ASIN/4756134815/

最後はJavaだけど、Unicode経由する場合のマッピング問題の理解にはよいでしょう。

302 デフォルトの名無しさん [sage] 投稿日:2005/08/05(金) 06:36:52

Vista beta1の文字コード表がExtBに未対応なのを見ると確かにかなり暫定的なもの
である可能性は高そうだ
XPからそのまま移植しただけみたいな

303 デフォルトの名無しさん [sage] 投稿日:2005/08/10(水) 18:42:06

>>284
もし環境が Windows ならば、
MultiByteToWideChar -> WideCharToMultiByte と呼び出す。
IE5以上が入っていれば、
IMultiLanguage2 を取得して、ConvertString メソッドを呼び出す。
Windows 以外なら、
iconv とか、ICU とか、バベルとかその辺を使う。

304 デフォルトの名無しさん [sage] 投稿日:2005/08/10(水) 18:52:06

> 勉強のためにも自力で変換したい

305 デフォルトの名無しさん [sage] 投稿日:2005/08/11(木) 03:13:50

MultiByteToWideChar がISO-2022-JPを変換できるのはWin2k以降で
IE5より条件厳しいし。

306 デフォルトの名無しさん [sage] 投稿日:2005/08/13(土) 04:25:56

文字コード支離滅裂なのって日本だけなの？

307 デフォルトの名無しさん [sage] 投稿日:2005/08/13(土) 07:06:58

日本の文字コード体系を真似た中台韓も同様の状況じゃなかったっけ？

308 デフォルトの名無しさん [sae] 投稿日:2005/08/13(土) 07:45:36

ベトナムも。

それからEU内はISO-8859-*で扱おうとするとやっかい。
隣国間のやりとりで結構問題になった。
島国日本に比べるとずっと近くて交流が多いから。

309 デフォルトの名無しさん [sage] 投稿日:2005/08/15(月) 14:04:21

まあ日本語は他の2byte圏より多少歴史がある分、面倒なしがらみも多いわけだが

310 デフォルトの名無しさん [sage] 投稿日:2005/08/15(月) 15:07:27

>>309
他の2byte文字を知っての言葉か？

311 デフォルトの名無しさん [sage] 投稿日:2005/08/15(月) 15:36:10

>>310
他の2byte文字とやらの説明よろ

中国は国家権力でGB18030を強制できるので楽と言えば楽だよね。

312 デフォルトの名無しさん [sage] 投稿日:2005/08/15(月) 16:34:39

>>311
質問を質問で返すなよ

313 デフォルトの名無しさん [sage] 投稿日:2005/08/15(月) 18:18:36

>>312
311!=310なんで別に返してるわけじゃないよ。説明よろ。

314 デフォルトの名無しさん [sage] 投稿日:2005/08/15(月) 23:46:02

何が聞きたいんだ

315 デフォルトの名無しさん [sage] 投稿日:2005/08/15(月) 23:48:45

他の2byte文字圏が日本語に負けず劣らず面倒であることの証明だろ

316 デフォルトの名無しさん [sage] 投稿日:2005/08/16(火) 00:38:40

他の2byte文字って何？

317 デフォルトの名無しさん [sage] 投稿日:2005/08/16(火) 00:52:27

だからそれを説明しろといってるんだろ

318 デフォルトの名無しさん [sage] 投稿日:2005/08/16(火) 00:55:44

スネークマンショーのつもりかよ

319 デフォルトの名無しさん [sage] 投稿日:2005/08/16(火) 01:36:30

だ～れ～？

320 デフォルトの名無しさん [sage] 投稿日:2005/08/16(火) 03:14:03

CJKVだろ
ttp://www.amazon.co.jp/exec/obidos/ASIN/4873111080
でも読め

321 デフォルトの名無しさん [sage] 投稿日:2005/08/18(木) 09:58:24

ここでいいのかなぁ…Windowsで文字コードの判定に
IMultiLanguage2::DetectInputCodepageを使ってみました。Googleのページ
(UTF-8)すらまともに判定できていませんが、精度はこんなものでしょうか？

322 デフォルトの名無しさん 投稿日:2005/08/18(木) 10:01:59

質問なので上げときます。

323 デフォルトの名無しさん [sage] 投稿日:2005/08/18(木) 11:35:39

試さずに言うけど、googleのトップページなんて
文字量が少ないんだから判定しにくいのも当然なのでは？

324 デフォルトの名無しさん [sage] 投稿日:2005/08/18(木) 12:51:53

文字コードの範囲限定してないし…

325 321 [sage] 投稿日:2005/08/18(木) 14:28:28

トルコ語(Windows)と判定されました。

>>324
指定方法ってあるんでしょうか？

326 デフォルトの名無しさん [sage] 投稿日:2005/08/18(木) 14:49:00

せっかくメタタグあるんだから、MLDETECTCP_HTML指定してやれば
まともに判断してくれまいか。

つうか、Win32Apiスレの話だよな、こんなの。

327 デフォルトの名無しさん [sage] 投稿日:2005/08/18(木) 17:13:11

どうするよ「表」

文字コードが何種できてもいいけどさ
5c入るコードに文字振るのやめない？
どんどん増えてく

328 デフォルトの名無しさん [sage] 投稿日:2005/08/18(木) 18:19:13

>>326
読み込むのがHTMLとは限らないんですよ。次のページのコードも
参考にしましたが…
DOBON.NET .NET Tips - 文字コードを判別する
ttp://dobon.net/vb/dotnet/string/detectcode.html

329 デフォルトの名無しさん [sage] 投稿日:2005/08/18(木) 18:29:38

あきらめの悪い奴だな

330 >>321 [sage] 投稿日:2005/08/18(木) 18:32:19

>>329
>>328のサイトので我慢します。

331 デフォルトの名無しさん [sage] 投稿日:2005/08/18(木) 18:42:33

>>330
C++でもいいんならバベルはどうだ？
サンプリングしたデータを下にスコアリングを行うからかなりの精度で判別するぞ。

332 321 [sage] 投稿日:2005/08/18(木) 18:56:46

>>331
ありがとうございます、Babelの存在を忘れていました。一応C♯とC++を
考えているので、考慮に入れたいと思います。

333 デフォルトの名無しさん [sage] 投稿日:2005/08/20(土) 00:41:24

>>327
意味不明

334 デフォルトの名無しさん [sage] 投稿日:2005/08/20(土) 02:53:04

>>333
もちろん意味わかっててそう言ってるんだよな。

335 デフォルトの名無しさん [sae] 投稿日:2005/08/20(土) 08:31:29

0x22, 0x27, 0x2Fとかきりがないけどな。
いまやUTF-8の時代だし。

336 デフォルトの名無しさん [sage] 投稿日:2005/08/20(土) 13:34:04 BE:39938742-

>>328
このページの判定ルーチンは、一バイト目に0のあるバイナリファイルを食わせると、
配列の外にアクセスして例外が起きそうな気が。

337 デフォルトの名無しさん [sage] 投稿日:2005/08/20(土) 14:48:40

まあ.NETならそれを足がかりにバッファオーバーフロー起こして攻略とかできないから

338 デフォルトの名無しさん [sage] 投稿日:2005/08/20(土) 14:52:07

>>335
だいたいそれならISO-2022-JPを真っ先に滅ぼさなきゃならない
(実際日本語を想定してないメールゲートウェイでトラブルの元になってる)
ことには気付いてるんだろうかね

339 デフォルトの名無しさん [sage] 投稿日:2005/08/20(土) 23:16:21

>>338
> (実際日本語を想定してないメールゲートウェイでトラブルの元になってる)

(　ﾟдﾟ)

(つд⊂)ｺﾞｼｺﾞｼ

(；ﾟдﾟ)

(つд⊂)ｺﾞｼｺﾞｼ
　　_, ._
（；ﾟ Дﾟ）

340 デフォルトの名無しさん [sage] 投稿日:2005/08/21(日) 02:55:12

ESCを捨てるゲートウェイの話とか聞いたことない?

341 デフォルトの名無しさん [sage] 投稿日:2005/08/21(日) 06:57:30

ISO-2022-JP の問題なら今は ESC よりも瘢雹だろう。

342 デフォルトの名無しさん [sage] 投稿日:2005/08/21(日) 10:38:35

amp;(瘢雹)は挟まるだけだからまだマシ
<→<や>→>はその後が全部化ける

343 デフォルトの名無しさん [sage] 投稿日:2005/08/21(日) 17:22:03

utf-8の日本語
すでに複数存在するって本当？

344 デフォルトの名無しさん [sage] 投稿日:2005/08/22(月) 00:42:02

>>338
いつの話だよ。
MIMEエンコードもしてないメールなの?

Structual fieldなら問題外だし。

345 デフォルトの名無しさん [sage] 投稿日:2005/08/22(月) 04:15:44

瘢雹でぐぐればそういうメールアーカイブがバリバリ現役なのは分かると思いますが。
いくら綺麗事を並べたところでascii圏の認識なんてそんなもん。

346 デフォルトの名無しさん [sage] 投稿日:2005/08/22(月) 19:39:20

メールアーカイブなんぞメールのトラブルとは何の関係もないやんけ

347 デフォルトの名無しさん [sage] 投稿日:2005/08/22(月) 22:19:43

>>343
MicrosoftとAppleとLinux(つーかglibc?)とJavaとJISで全部ちょこっとづつ違うんじゃなかったっけ。
「～」等の記号のコードポイントが違ったり正規化表現が違ったり。(正規化はUnicodeの範疇だけど)

348 デフォルトの名無しさん [sage] 投稿日:2005/08/23(火) 05:22:31

>>346
メールのトラブルじゃなきゃ何が起きてもいいわけじゃないし

349 デフォルトの名無しさん [sage] 投稿日:2005/08/23(火) 07:05:13

>>347
それはUTF-8ではなくShift_JISの方
そして違うのはコードポイントというかUCSへのマッピング

350 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 02:10:00

>>349
でも全部UTF-8で処理するCGI作ってWinとMacからそれぞれ「スケジュール2005年4月～9月」などと入力してPOSTしたら、「～」が異なるコードポイントでやってきますですよ?

351 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 02:17:29

そもそもWinとMacでは同じに見えても違う波線だから当然と言えば当然。

352 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 06:44:13

>>350
だからUTF-8の方は一種類なんだって。
1. あるUTF-8にはＸＸＸという文字があるけど違うUTF-8にはない、みたいなことはない。
2. あるUTF-8のYYYというコードポイントの文字はZZZだけど違うUTF-8では別の文字、みたいなこともない。

でもShift_JISでは、1. も2. も現実に起こってるの。
で、そのいろいろ微妙に違うShift_JIS達をユニコードに変換するときに、それぞれがいろいろ微妙に違う変換テーブルを使ってるのが原因。
UTF-8側の問題じゃないの。OK?

353 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 07:54:01

原規格との変換テーブルを規定しないUnicode側の問題だろ。

354 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 08:26:17

むかしは規定してたけどな。
きっと管理しきれなくなってやめたんだろうなぁ……。
ちゃんとやろうとするなら、SJISだけでいくつの方言を面倒みないといけないやら。

355 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 08:32:03

> でも全部UTF-8で処理するCGI作って

356 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 08:39:26

ていうかユニコード側が規定してもベンダが従うとは限らないし、
ベンダはマッピングを変更したり増やしたりもするだろうし、
ユニコード側にそれの管理をさせるのは無茶だろ。

混乱の元だってのは確かにその通りかもしれないけど、他にどうしろと？

357 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 08:52:17

よしUTF-128ぐらいで手を打とうじゃないか
言語問わず、今現在使われてる部分は意地でも文字振りません

358 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 16:22:59

Unicodeがマッピング・テーブルを公開していた頃も
ベンダはそれに従ってなかったし。

359 デフォルトの名無しさん 投稿日:2005/08/24(水) 18:55:15

>>357
UTF-8でも、36bitコードまでリニアな拡張で扱えるが。

360 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 19:11:20

それはUTF-8ではない。

361 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 19:31:36

＞36bitコード
(　´д)ﾋｿ(´д｀)ﾋｿ(д｀　)

362 デフォルトの名無しさん 投稿日:2005/08/24(水) 20:05:55

>>360
だから、「UTF-8の *リニアな拡張* 」だって言ってんだろ？
先頭バイトの上位ビットに7個1が並んでいたら、↓ 36bitになるだろうが。

11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

363 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 21:23:35

UTF-8 符号化では 0xfe と 0xff のバイトは絶対に使用しない。

364 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 21:35:56

拡張って言葉の意味が分からないの?

365 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 21:36:49

ちなみに0xfeと0xffを使わない理由はUTF-16のBOMが100%判別できるようにするためだな

366 347=350 [sage] 投稿日:2005/08/24(水) 22:50:04

>>351 >>352
ええと、理屈はわかるんですが、現実として、WinとMacとLinuxの混在環境
で全部UTF-8に統一しても、人間から見たら「同じ」と認識されるはずの
ものが異なるバイトパターンを構成するために、システム的には「同じ」
にならないと言う問題があって、これを解決するためには、どこかで
UTF-8 to UTF-8変換をする必要があるのではないでしょうか。

この状況を称して「UTF-8の日本語はすでに複数存在する」と言っても
過言ではない、と思うんですけれども。

367 デフォルトの名無しさん [sage] 投稿日:2005/08/24(水) 22:59:33

> UTF-8 to UTF-8
お前が言わんとすることに似たようなことは既に存在する。
http://www.google.co.jp/search?hl=ja&c2coff=1&q=Unicode+%E6%AD%A3%E8%A6%8F%E5%8C%96&lr=lang_ja

368 デフォルトの名無しさん 投稿日:2005/08/24(水) 23:02:00

>>366
UTF-8は文字エンコードの規格。
見た目は同じで違う文字、というのは文字セットの問題。
だから、UTF-8云々の議論はかみ合わない。

それに、バイトパターンが一致しないのは、BOM有無とか改行の問題じゃないの？
あるいは、UTF-8なら本来2バイトで表せる文字を3バイトで記録するような誤った実装の
アプリを使っているとか、サロゲートペアをそのまま2文字で扱うエラーとか…

369 366 [sage] 投稿日:2005/08/25(木) 00:49:19

>>367
ぅぃ。問題自体が今さらなのは承知しております。

が、その対策が、この関数／メソッドを呼べばOK!にはなってなくて、
未だにアプリケーション毎の個別対応に依存しているようにしか
見えないのはどうしたものかと。

Javaの世界ですら、10年前から既知の問題なのにどこにも(ベンダ依存
マッピング問題を含む)統一されたフレームワークが見あたりません……。

私が知らないだけだったら、是非教えてください。

370 366 [sage] 投稿日:2005/08/25(木) 01:02:13

>>368
厳密にはそうなんですが、現状は、
Conten-Type: text/html; charset="UTF-8"
や
export LANG=ja_JP.UTF-8
のように、文字セットの情報は交換してないので、事実上UTF-8というだけで
文字セットまで含んでしまってます。せめてUTF-8-msとかUTF-8-appleのよう
に区別してくれたら～(;_;)

ちなみにバイトパターンについては、「スケジュール4月～9月」という文字列
を、Windowsのメモ帳とMac OS Xのテキストエディットで入力、エンコーディ
ングはどちらもUTF-8で保存すると、以下のようになります。
od -j 3 -tx1 win.txt (BOMが入るので頭3バイト切り捨ててます)
0000003 e3 82 b9 e3 82 b1 e3 82 b8 e3 83 a5 e3 83 bc e3
0000023 83 ab 34 e6 9c 88【ef bd 9e】39 e6 9c 88
od -tx1 mac.txt
0000000 e3 82 b9 e3 82 b1 e3 82 b8 e3 83 a5 e3 83 bc e3
0000020 83 ab 34 e6 9c 88【e3 80 9c】39 e6 9c 88
おや、MacでもNFCなのか。WebDAVのリクエストはNFDで投げてくるので、
てっきりNFDになるのかと……。

371 デフォルトの名無しさん [sage] 投稿日:2005/08/25(木) 02:16:26

MACのwebdavリクエストってかなり行儀悪いよねえ

俺も複数あるようにとれちゃうけど、
とにかくあれだUTF-8って統括してるってのりじゃないんだ

マッピング誰がつけたの？

372 デフォルトの名無しさん [sage] 投稿日:2005/08/25(木) 05:15:33

>>370
厳密な指定が無い限りユーザが何を入力するかは好み(運)次第でしょ。
MacOSXのinput methodだとU+301C WAVE DASHの方が入力し易いけど、
U+FF5E FULLWIDTH TILDEも入力できるし、WindowsのIMEで「から」を
入力するとU+301C WAVE DASHになるみたいだし。

MacOSXではHFS+との互換性や同じファイル名を作らせないためにVFSは
NFDにnormalizeしてるけど、NFC/NFD/複雑な合成文字のいずれも扱えます。
http://developer.apple.com/ja/qa/qa2001/qa1173.html

373 デフォルトの名無しさん [sage] 投稿日:2005/08/25(木) 08:02:25

>>370
あほ? (w

374 デフォルトの名無しさん [sage] 投稿日:2005/08/25(木) 08:48:22

>>370
だからUTF-8の問題ではないだから、UTF-8-msとかUTF-8-appleとかを作って解決すべき問題ではないの。

375 デフォルトの名無しさん [sage] 投稿日:2005/08/25(木) 08:54:41

http://euc.jp/i18n/ucsnote.ja.html
これだろ?

UnicodeじゃなくてJIS X 0208に限っても、
－～ー─と利用者が入力し間違う余地はある。

これを文字コード(のエンコーディング)の問題だと思う奴は馬鹿じゃないの?

376 デフォルトの名無しさん [sage] 投稿日:2005/08/25(木) 14:11:34

>>370
これ読んで出直し。
http://www.unicode.org/reports/tr17/

377 デフォルトの名無しさん [sage] 投稿日:2005/08/25(木) 15:23:50

Content-Typeがutf-8で萎えた、こだわって欲しかった

こんなんに任せてっからだめなんだよ！そのうちUとuの変換表作り始めるぜ

378 デフォルトの名無しさん [sage] 投稿日:2005/08/26(金) 06:02:23

>>374
GNU libiconvはNFDが扱えないため、DarwinのlibiconvはUTF-8にだけNFCへの
normalizerを追加してUTF-8-MACと称してます。
Darwin的にはUTF-8の問題ではない物をUTF-8-APPLEを作って解決するのはありw

379 デフォルトの名無しさん [sage] 投稿日:2005/08/26(金) 07:13:57

そもそもAppleのNFDって互換漢字をNormalizeしないよな
されたらそれはそれで困るけど。

380 デフォルトの名無しさん [sage] 投稿日:2005/08/26(金) 07:15:27

↑はHFS+に格納する場合

381 デフォルトの名無しさん [sage] 投稿日:2005/08/26(金) 15:03:48

>>380
詳しく

382 デフォルトの名無しさん [sage] 投稿日:2005/08/26(金) 21:29:09

>>381
http://developer.apple.com/ja/technotes/tn1150.html#UnicodeSubtleties

383 デフォルトの名無しさん [sage] 投稿日:2005/08/26(金) 21:35:39

規格上は同一の文字コードでも出力時の選択に応じて
便宜上別の名前をつけるのはよくあることだべ
エンディアンの違いでx-utf-16le-bomとx-utf-16be-bomとか
使用するエスケープシーケンスの違いでiso-2022-jp-3とiso-2022-jp-3-strictとか

384 デフォルトの名無しさん [sage] 投稿日:2005/08/27(土) 07:42:26

>>383
IANAにもUTF-16LEとかあるのでその辺は承知してます。
それらの場合、UTF-16やISO-2022に直結した問題なので説得力があるのですが、UTF-8-MAC
はSambaが動かないバグに泥縄で対処するために作った物の様です。
UTF-8-DARWIN-VFSとでも名付けるのが機能や泥縄感wを表して良いと思うのですが、
UTF-8-MACを使ったためにこのスレでも見られる変な誤解が広まっています。

385 デフォルトの名無しさん [sage] 投稿日:2005/08/27(土) 07:59:42

Mac OS Xは、HFS+のドライバ@Darwinや
CarbonのFrameworkに個別の変換実装を持っていてアホ丸出し。

386 デフォルトの名無しさん [sage] 投稿日:2005/08/27(土) 09:01:44

>>384
UTF-16LEはBOM禁止でUTF-16とは明確に違うべ

387 デフォルトの名無しさん [sage] 投稿日:2005/09/12(月) 17:09:19

MSGOTHICの文字情報を
euc-jpのマッピングに揃えたら
euc見れる？？サイズかわって無理？

388 デフォルトの名無しさん [sage] 投稿日:2005/09/12(月) 19:33:41

>>387
何が知りたいのかよくわからんが、

「MS Gothic フォント内のグリフの並び方をEUC-JPの並びに変えたら、
Win32 API の文字表示APIでシフトJIS文字列を渡すところでEUC-JP文字
列を渡して画面に表示できるようになるか？」

という意味？

389 デフォルトの名無しさん [sage] 投稿日:2005/09/12(月) 22:24:07

相手にしないのが吉

390 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 06:29:36

>388
ですです！
フォントについて知らな過ぎのくせにイメージだけで喋っちゃってました。
グリフって？ってとこから構築してました
伝わってよかったありがとう

>389
ひどい！

shiftjisもeucもアスキーよけた同じような感じだと思ってたんだけど
結論は無理っぽい？？

391 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 06:33:51

これ半角カナ全滅しますね、フォントだけで吸収できないもんですか
ハイもう喋りません、ごめんなさい

392 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 09:20:39

半角カナｲﾗﾈ

393 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 09:47:44

392 名前：デフォルトの名無しさん[sage] 投稿日：2005/09/13(火) 09:20:39
　　半角カナｲﾗﾈ

394 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 10:22:05

393 Name：デフォルトの名無しさん [sage] Date： 2005/09/13(火) 09:47:44 ID: Be:
392 名前：デフォルトの名無しさん[sage] 投稿日：2005/09/13(火) 09:20:39
　　半角カナｲﾗﾈ

395 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 10:25:18

質問です。
WindowsAPIもしくは、C言語関数で
ISO-8859-*からUNICODEへ変換する関数はありますか？
教えて君で申し訳ないですが、いくら調べても見つからないので、
書き込ませてもらいました。
ご存じでしたらお願いします。

396 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 11:01:03

>>395
> 教えて君で申し訳ないですが、いくら調べても見つからないので、

このスレくらい読め。

397 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 11:49:10

iconv <- unix
MultiByteToWideChar <- win32api
# MultiByteToWideChar, 新しいMSDNのページだと検索に引っかかってこない……。

398 半角撲滅ﾘｰﾀﾞｰ [sage] 投稿日:2005/09/13(火) 12:07:48

半角に包まれたcursesダイアログが目に染みるあなた
起動時のくるくるインジケータ※に￥が混ざりどっち回転なのかわからなくなるとお悩みの方！
コピーライトゥにせんご、と読んでる天然も共に戦いましょう！
今こそ立ち上がるのです！！！

399 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 12:16:29

半角って難ですか?

400 395 [sage] 投稿日:2005/09/13(火) 13:14:44

>>397
MultiByteToWideCharで可能と言うことでしょうか？
因みにmbstowcsでも可能でしょうか？
あと、対象OSはWindowsCEなのですが、
第1引き数のCP_UTF7・8はCEでサポートされないとMSDNに書いてあるのですが、
ここには何をしていすれば良いですか？
全くの素人で申し訳ないですが、宜しくお願いします。

401 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 17:28:11

>>400
最初の引数はIsValidCodePage()の引数がそのまま使える。
IsValidCodePage()の項目にはコードページの一覧がある。

402 デフォルトの名無しさん [sage] 投稿日:2005/09/13(火) 20:43:08

>>400
第一引数はマルチバイト文字列に関するコードページなので、
ISO-8859-*に対応するコードページを指定してやればいい。
変換後はUCS-2かUTF-16固定のはず。

403 デフォルトの名無しさん [sage] 投稿日:2005/09/14(水) 09:45:15

>>401-402
ありがとうございます。
助かりました。

404 デフォルトの名無しさん [sage] 投稿日:2005/09/15(木) 01:53:38

太玄経(U+1D300～)の文字名間違い指摘キター

405 デフォルトの名無しさん 投稿日:2005/09/15(木) 07:20:39

UTF-8な以下のXMLファイルを（notepadで作成し、UTF-8でセーブしました）、

<?xml version="1.0" encoding="UTF-8"?>
<RootNode><ChildNode value="てすと" /></RootNode>

以下のMSXMLを使ったプログラムで読み込もうとしています。

#import "msxml4.dll"
using namespace MSXML2;
int main()
{
CoInitialize(0);
{
IXMLDOMDocumentPtr pzDomDoc( "MSXML.DOMDocument" );
pzDomDoc->validateOnParse = VARIANT_FALSE;
pzDomDoc->load( "C:\\temp\\japanese_text.xml" );
IXMLDOMElementPtr pzDomRoot = pzDomDoc->documentElement;
IXMLDOMElementPtr pzDomNode = pzDomRoot->firstChild;
/*-->*/_variant_t varAttr(pzDomNode->getAttribute( "value" ));
}
CoUninitialize();
return 0;
}

"-->"の行のvarAttrに空文字が帰ってきてしまいます。環境はVisualC++6.0英語版です。
原因がわかる方いらっしゃいますでしょうか。

406 405 投稿日:2005/09/15(木) 07:22:42

（XML関連のスレはあまり人がいらっしゃらないような気がしたので敢えてここで質問させていただきましたが
もしスレ違いでしたらすみません、、、。）

407 405 [sage] 投稿日:2005/09/15(木) 08:00:41

ちなみに>>405のコードの中で
pzDomDoc->save( "C:\\temp\\japanese_text_out.xml" );
としてファイルにセーブしなおしてみたところ日本語の属性がきちんと元のままセーブされていました。属性を取り出すところで何かが起こってるのだと思うのですが、、、。
言い忘れましたがOSは"英語版"WindowsXP(SP1)です。VC++も含めて英語版の環境であることが問題なのでしょうか？

408 デフォルトの名無しさん [sage] 投稿日:2005/09/15(木) 08:12:24

とりあえずBSTRはwcharらしいから
リテラルにL付けてみたら？

409 405 [sage] 投稿日:2005/09/15(木) 08:17:33

すみません、私の勘違いだったようです。デバッガでは>>405のコードのvarAttrの値が
varAttr{"" VT_BSTR}
と表示されるので空文字が返ってきているのだと思ってしまっていました。文字列はちゃんと返されているようです。
一人でスレを汚してすみませんでした！

410 デフォルトの名無しさん [sage] 投稿日:2005/09/15(木) 08:18:32

XMLのｽﾚへ帰れ。原因は知ってるがここでは教えてやらん。
ただ、ヒントだけは出しておく pzDomRoot != "/RootNode"

411 デフォルトの名無しさん [sage] 投稿日:2005/09/15(木) 17:51:38

>>410
カコワルイ

412 デフォルトの名無しさん 投稿日:2005/09/16(金) 01:56:08

我々も文字コードで天下を統一するぞ！！！！

UTF-8で天下統一だ！！！

UTF-8は尾張の織田信長だ！！！！

413 デフォルトの名無しさん [sage] 投稿日:2005/09/16(金) 09:10:01

UTF-8でなくて、Unicodeと言っちゃダメなのか? と突っ込んでみる。

414 デフォルトの名無しさん [sage] 投稿日:2005/09/16(金) 12:47:52

413＝明智光秀

415 デフォルトの名無しさん [sage] 投稿日:2005/09/16(金) 22:42:58

>>413
UTF-8はUnicodeの一形態なんだから、お前の文は意味がない。

416 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 02:20:17

UTF-7も仲間に入れてよ～、ということだろう。

417 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 02:42:46

UTF-7イラネ
RFCも更新されずに見捨てられてるし

418 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 15:56:13

>>416
いやいや、UTF-32も仲間に入れてよ～、ということだな。

419 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 16:24:41

UCS-2＝松平家康
UCS-4＝羽柴秀吉
UTF-7＝明智光秀
UTF-8＝織田信長
UTF-16＝徳川家康
UTF-32＝豊臣秀吉

420 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 16:54:46

UTF-8がUTF-7にヌッコロされるという図は想像出来んのだが

421 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 17:30:51

ISO-2022 毛利

422 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 17:50:30

Shift_JIS＝武田信玄
EUC-JP＝上杉謙信

423 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 17:50:46

>シフトJISは共通基盤となっている。この共通基盤を維持することが、
>言語の共通性を維持するために、とても大事なのだ。
ttp://openblog.seesaa.net/article/6106946.html#comment

424 423 [sage] 投稿日:2005/09/17(土) 17:58:36

16秒遅かったか。

425 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 22:01:10

>>423
南堂、あいかわらずだなヽ( ´ー`)ノ

426 デフォルトの名無しさん [sage] 投稿日:2005/09/17(土) 22:26:34

「シフトJISが共通基盤」って鎖国でもするつもりか？
内部コードSJIS対応パッチなんてどこもマージしてくれないぞ。
Citrus Projectでもない限り。

427 デフォルトの名無しさん [sage] 投稿日:2005/09/18(日) 02:22:29

>>423
> 私の旧型パソコン（Windows98）は、対応できなかった。google に接続するたびに、異常を起こした。
> たいていは、マシンがビジー状態になってストップするだけであり、再起動すれば直った。しかし、
> あるときついに、ビジー状態のあげく、CPUが過熱して、パソコンが壊れてしまった。
>
> 　つまり、UTF-8 という文字コードを採用したせいで、パソコンが壊れてしまったわけだ。
> 　つまり、UTF-8 という文字コードを採用したせいで、パソコンが壊れてしまったわけだ。
> 　つまり、UTF-8 という文字コードを採用したせいで、パソコンが壊れてしまったわけだ。
> 　つまり、UTF-8 という文字コードを採用したせいで、パソコンが壊れてしまったわけだ。
> 　つまり、UTF-8 という文字コードを採用したせいで、パソコンが壊れてしまったわけだ。

お茶吹いたｗ

428 デフォルトの名無しさん [sage] 投稿日:2005/09/18(日) 03:27:22

>>426
それも日本のプロジェクトだな。

429 デフォルトの名無しさん [sage] 投稿日:2005/09/18(日) 07:47:36

>>427
UTF-8って怖いね(w

430 デフォルトの名無しさん [sage] 投稿日:2005/09/18(日) 10:01:33

UTF-8のせいでうちのおじいちゃんは…

431 デフォルトの名無しさん [sage] 投稿日:2005/09/18(日) 10:07:50

巷で「UTF-8最強！！！！」と叫ぶ輩を見掛けるのには
こんな理由があったのか。

432 デフォルトの名無しさん [sage] 投稿日:2005/09/18(日) 10:49:41

　　　　　|;:;:;:;|　　　　　　　　　　　　　　　　　　ヾ;:;:;:|
　　　　　|;:;:;:;|　　　 ,,,;;:iii;;;;;　　　　,.-＝＝--､.　`!;:;|ヽ
　　　　　〉;:;:|　,.-''"￣￣￣`ヽ⌒|　　--｡､-､ヽ-`'　|　　　　
　　　　　i　`u　i　-‐'"ヾ'"　　::　::!　　　　　　:　|　　ノ　　これはUTF-8の独裁政治だ！
　　　　　 i　　　|　　　　　　ノ　　ヾ､＿＿＿ノ　　::|　　　　　日本の未来が不安。
　　　　　　|　|　ヽ､＿＿,.-i　　　　　i　､　　　　:　　:|　　
　　　　　　 | |　　:　　　: '" `～ー～'"　ヽ　:　:　　 ::|　

433 デフォルトの名無しさん [sage] 投稿日:2005/09/18(日) 11:41:41

皆で文字化け検査テスト用に最適な文字列を考えようぜ！！？
とりあえずざっくりこんな感じでどう？

ｾﾞﾝｶｸ&ハンカク表う～。

434 デフォルトの名無しさん [sage] 投稿日:2005/09/18(日) 17:00:26

>>427
PCが壊れた原因をUTF-8のせいにするとは
とんだアフォだなw

もっと賢い対応方法を考えることができないのかよw

435 デフォルトの名無しさん [sage] 投稿日:2005/09/18(日) 21:18:47

とりあえずGoogleにShift JISをはくように指定できる。

436 デフォルトの名無しさん [sage] 投稿日:2005/09/19(月) 01:44:04

そこで UTF-9 と UTF-18

437 デフォルトの名無しさん [sage] 投稿日:2005/09/19(月) 02:24:37

俺なんかUTF-256を指定したら赤ちゃん出来たよ。危険すぎ。

438 デフォルトの名無しさん [sage] 投稿日:2005/09/20(火) 11:58:58

織田信長=「パソコンをぶっ壊す！！！」だったのか。分かった。

439 デフォルトの名無しさん [sage] 投稿日:2005/09/20(火) 13:10:34

サイバーな戦国時代ですね

440 デフォルトの名無しさん [sage] 投稿日:2005/09/26(月) 01:46:41

俺はUTF+8で保存したら、ディスクの空き容量が増加したよ。

441 デフォルトの名無しさん [sage] 投稿日:2005/09/26(月) 08:00:27

http://science4.2ch.net/test/read.cgi/infosys/1045473594/64

64 名前：非決定性名無しさん[] 投稿日：2005/09/01(木) 16:06:49
http://www.itmedia.co.jp/news/articles/0508/31/news062.html

＞　JIS委員の南堂久史氏は、Webサイト「2004 JISをめぐる混乱」で、
＞「従来のJISでは、略字が大幅に取り入れられ、日本の伝統的な
＞文字遣いが犠牲になってしまっていた」などと、新JISで正字体を
＞採用した経緯を説明。略字を使っていた一部機関などに犠牲が出る
＞ことを詫びつつも、正字体の必要性を訴えている。

南堂氏ってJIS委員・・・・あｑｗせｄｒｆｔｇｙふじｋ

442 デフォルトの名無しさん [sage] 投稿日:2005/09/26(月) 09:27:04

>>441
> 初出時、「JIS委員の見解」として掲載した部分は、JIS委員のものではありませんでした。お詫びして訂正いたします
となってITmediaの記事には、もうない。初出のインチキ記事のせいで、
本物委員・安岡先生、反論をあちこちに書き込んでたな。ごくろうさま。

443 デフォルトの名無しさん [sage] 投稿日:2005/10/08(土) 09:12:29

麻雀牌文字の提案キタコレ
http://www.dkuug.dk/jtc1/sc2/wg2/docs/n2975.doc

それにしてもカナダとドイツのファビョりようが面白すぎる
そこは漢字圏の人間が10年前に通った道ですよ?

444 デフォルトの名無しさん [sage] 投稿日:2005/10/08(土) 09:46:07

中国ってどうやって文字打ち込んでるの？？！！
漢字それぞれ発音が違うんでしょ？アルファベットで無理やり当て字っぽくだすんだべ？
他想像つかない、そすっと連文節とか出なそうだ、1字ずつ変換してんだろうか

韓国はカナ入力みたいな事してもキーボードあまるだろう
日本語が5音だけでよかった

445 デフォルトの名無しさん [sage] 投稿日:2005/10/08(土) 09:57:29

>>444
前に中国語のGlobal IMEで遊んでみたことがあるんだが、
それぞれのキーに簡単な漢字が割り当てられていて、
それを組み合わせていくようだ。（木を2つ入力して変換すると林になるという具合）
あと、ローマ字みたいなピンイン入力もあった気がする。

446 デフォルトの名無しさん [sage] 投稿日:2005/10/08(土) 10:06:58

流石に赤五筒を入れないだけの良識(wは持ち合わせているか。

447 デフォルトの名無しさん [sage] 投稿日:2005/10/08(土) 10:10:18

SJ３はpin-inで入力できたな。

448 デフォルトの名無しさん [sage] 投稿日:2005/10/08(土) 10:10:39

>>444
大陸のネイティブな中国人はたいがい五筆。
日本語のような読み入力→変換ではなく、
目的の漢字に対応するコード(基本はキー4つ)による直接入力。
そのキーは漢字の造りや画を元に決められる。
中国の本屋やスーパーにいくと教本が山のようにある。

中国語学習者はピンインが多いと思う。
同じピンインに対応する漢字が多いので入力メソッドが馬鹿だと
しんどいことこの上ない単漢字変換になってしまうが、
よく使われてるやつでは辞書を元に入力予測方式や短縮入力
ができるので、かなり楽。

俺は以前五筆を覚えかけたが日本にいる間はDvorakで生活してるので
ピンインに戻ってしまった。
QWERTY前提なんだよな五筆。

個人的に一番楽なのは携帯で使える筆画入力だったりする。
たまに書き順わからなくなってピンインに逃げるけど。

449 デフォルトの名無しさん [sage] 投稿日:2005/10/08(土) 12:53:25

俺の知り合いはピンインだったよ。
五筆は国定なんでしょ。あんなの馬鹿馬鹿しいって言っていた。

450 デフォルトの名無しさん [sage] 投稿日:2005/10/08(土) 14:13:21

IMEがバカでも問題がない五筆と
IMEの品質次第のピンインってとこ？

451 デフォルトの名無しさん [sage] 投稿日:2005/10/08(土) 15:52:09

大陸 … ピンイン
台湾 … 注音

だったと思っていたけど、現実はもっと複雑なのかな。
ちなみにSCIMにはpinyin, chewing両方のIMEがある。

452 デフォルトの名無しさん [sage] 投稿日:2005/10/09(日) 01:27:03

漢字読めるけど書けない人大量生産の日本とはだいぶ違うんだ
書けなきゃ話にならないね

453 デフォルトの名無しさん [sage] 投稿日:2005/10/09(日) 01:44:01

その代わりはらわないでとめたから×とか
そういうアホな教育はやってませんから

454 デフォルトの名無しさん [sage] 投稿日:2005/10/09(日) 02:18:26

つーか細部に注意をいきとどかせるなんてことやってる余裕がない。
やってたら中国製品の質もずっとマシになってたんじゃないかと思わないでもない。

なんせガキは喋れるけど書けない文字がいっぱいある。ひらがなねーし。
自分の名前くらいは幼稚園で教わるけど。
ちんたらやってたら他の教科の学習も不自由するんじゃなかろうか。

455 デフォルトの名無しさん [sage] 投稿日:2005/10/09(日) 02:18:29

クォック・グーから漢字＆チュノムに変換できるベトナム語のIMEがあるといいな。
現状ではチュノムのフォントですら文字鏡くらいしかなかったような気がするが。

456 デフォルトの名無しさん [sage] 投稿日:2005/10/09(日) 04:02:31

このフォントを無償公開しているって事はないのかな。
http://www.mojikyo.org/html/institute/sokai/02/sokai02.htm

457 デフォルトの名無しさん [sage] 投稿日:2005/10/11(火) 09:27:43

NIK-code、T-code、TUT-codeを試してみたが、覚えられ中田 orz

458 デフォルトの名無しさん [sage] 投稿日:2005/10/13(木) 18:09:09

四角號碼で入力できる大漢和みたいなIMEはないのかねぇｗ

>>456
文字鏡フォントと同じもののような希ガス

459 デフォルトの名無しさん [sage] 投稿日:2005/10/13(木) 21:46:39

>>458
欲しいのは字形データだけじゃなくて、
ベトナム(or Unicode)のエンコーディングスキームでできた、
適切に国際化されたシステムならどこでもつかえる、
事実上文字鏡専用ではないフォントな希ガス

460 デフォルトの名無しさん [sae] 投稿日:2005/10/13(木) 23:58:03

>>458
> 文字鏡フォントと同じもののような希ガス

…記事にそう書いてあるよね…

これ寄贈したんだから、ベトナムは使っていいんでしょ?
寄「贈」だから、配布していいんじゃないのかな?

461 デフォルトの名無しさん [sage] 投稿日:2005/10/14(金) 00:59:30

>>459
チュノムはUnicodeだとCJK Unified Ideographs Extension Aで初めて入ったと思う。

>>460
寄贈先がベトナムの研究機関だからそこが配布の条件を決めるということになるんだろう。

462 デフォルトの名無しさん [sage] 投稿日:2005/10/14(金) 09:24:00

月刊言語2005年10月号が「インド系文字の世界――デーヴァナーガリー文字入門」を
特集していたり、アジアの文字への関心は、いま盛り上がり時期なのかな。
http://thistle.est.co.jp/tsk/detail.asp?sku=50510&page=1

463 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 01:12:13

というか、国が文字をこれだけ使うと決めれば言いだけの事なのになぜ未だに手書き文字の戸籍をみとめるんだ？
花押とかサインの類が手書きなのは認めても、全ての人が認識できない物に意味は無いんじゃないのか？

464 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 01:33:04

土
口　野家

士
口　野家

465 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 01:54:24

>>463
水彩油絵などはこの世から無くしてしまえ。1024x768 32bit以内で表現しろ。
と言ってるようなものだな

466 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 02:02:57

>>463
いや、新しいのは基本的に認めてないぞ。

467 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 02:07:36

>>465
なんでそうなるんだよ。芸術作品をどうこうしろなどとは言ってないだろ。
情報の交換である文書は正確に意味が伝わらないとダメだろが。
だから文書の中で表現する時の文字は全て規定しろって言いたいんだよ
ようするに文書を紙の上に表現する事を前提にしているところを、電子化する事を前提にしろと考え方を変えろと言ってるんだ

468 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 02:32:44

>>467
あんた全然わかってないよ。
つーか、こんなカス人間が文字コード規定しろとか、笑わせるよな。

469 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 02:38:58

まあなんだ。変えるべきは電子化の方法であって、
戸籍や文字文化のシステムの方じゃないわな

470 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 03:07:39

Windows入れた後に外字インストールすんのめんどくさいんだよ

471 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 09:54:05

「戸籍法施行規則」でもって、戸籍上の氏名のうち名の方の文字は制限されているから、
JIS X 0213:2004対応フォントを使えばそれですむ。
氏の文字の方はやっかいだから、法務省も原則として統一する方向で、
誤字俗字の排除を進めているようだけど、強制的なやり方は
国会が認めてくれなかったということだろうね。

でも法務省の基本方針にならうなら、外字に頼ることは少なくなると思うが・・・
誤字俗字を正字に引き直す法務省の判断基準は、「新誤字俗字・正字一覧表」で分かるよ。
http://www.teihan.co.jp/contents/k007.htm
司法書士あたりで必需品になってるやつさ。
まずはこの基準で統一して処理するのは、正当かと思うんだが。
文句を言ってきた相手に何と言うかは、それぞれの判断で・・・
なお、戸籍には「よみかた」は記載されない。住民票には記載される所が多いらしい。

472 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 11:29:47

この辺りね。
http://homepage2.nifty.com/n-bunko/pc/kotoba06.html
http://homepage2.nifty.com/n-bunko/pc/kotoba06b.html ←古い版

http://www.meti.go.jp/press/20041221008/041221jinmei.pdf とか。

473 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 14:11:21

いちおここにもはっとく

Globalization Gotchas
http://macchiato.com/slides/gotchas.html

474 デフォルトの名無しさん [sage] 投稿日:2005/10/17(月) 22:54:48

そーいやAdobeがAJ1-6をUnicodeで符号化するためにVariation Seqeuncesの
登録制度の標準化を進めてるようだが。
http://www.unicode.org/reports/tr37/tr37-2.html
いつの間にか更新されてた。
> This collection could be targeted at the representation of person and place names,
> for example.
という登録例がズバリ示されてるな

475 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 11:56:23

Unicode(UTF-8)…ASCIIの拡張
GB18030…GB2312(EUC)の拡張
TRONコード…JIS X 0208(GLに割り当てた場合)の拡張
みんな自分が可愛いんですね(当たり前か)

476 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 14:19:29

>>474
登録例は「芦」で「芦田さんは芦屋のお嬢様だ」ときたわけですね。
これは、提案者のAdobeにとっては
> AJ1-6をUnicodeで符号化するために
という目的があるとして、内容は
> Variation Seqeuncesの登録制度の標準化
として異体字を扱うために汎用的に利用できるものと理解していいんでしょうか。

477 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 14:49:08

cp932・・・Shift_JISの横領
自分以外が憎いのさ！

478 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 15:56:12

>>476
そうみたい。TRの規定を満たせば理論上は誰でも登録できるはず。
具体的な目的がちゃんとあるから、Language Tagみたいに申し訳程度に
規定しといて事実上誰にも使われないようなものにはならないでしょう
>>477
Shift_JISってもともとMicrosoftが作ったんじゃなかったっけ?
後から互換性がないようにJISでシフト符号化文字集合を規定しておいて
「MSのシフトJIS」は附属書1と互換性がないとか言われても困るような。
独自拡張として放っておかれたままのほうがまだマシだったかも

479 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 17:21:39

>>478
Shift JISの制定過程はなんかややっこしいらしい。
http://ja.wikipedia.org/wiki/Shift_JIS
http://ja.wikipedia.org/wiki/%E3%83%8E%E3%83%BC%E3%83%88:Shift_JIS

480 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 21:10:09

http://ja.wikipedia.org/wiki/%E3%83%8E%E3%83%BC%E3%83%88:Shift_JIS
> シフトJISはアメリカ製ソフトの日本語化に適していたので、

http://www.iana.org/assignments/character-sets でいうところの
JIS_X0201の延長線上で、JIS X 0208の漢字を使うのに適していたので、

とした方が性格だろうな。
半角仮名(JIS X 0201 Kana)のみはそれ以前から使えていたわけだから。

481 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 21:11:48

それから、アスキーの担当者が昔語りしているのがどこかにあるはず。
fj.kanjiでもうpされていたような気がする。

482 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 21:20:04

>>480
「アメリカ製ソフトの日本語化に適してい」るのは圧倒的にEUCだからなあ。
半角カナの呪縛が大きいんだろうな。

しかし文字コードみてると、互換性を錦の御旗にレガシーなものをひっぱると
後々に禍根を残すだけだねまったく。

483 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 21:42:41

当時は階層ディレクトリの区切り文字に \
(つーかISO 646 invariantじゃない文字)を使う変態なOSなんてなかったから
ここまで問題になるとは思っていなかったようだ。
つーかそこはWikipediaだから直接なおしに行けばいい

484 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 21:46:36

何に比べて「アメリカ製ソフトの日本語化に適していた」のかが書かれていないんだな。
おそらくJIS X 0208を単独の符号化文字集合として使ってGLに割り当てた場合だろう
(実際PC-9801のテキストVRAMはそんな構造してたし)。
EUCはシフトJISの反省に立って作られた符号化方式だからシフトJISより改善されてる
のはある意味当たり前だ

485 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 22:30:33

>>483
'が2byte目に来たらPascalのリテラル文字列で困るんじゃないか?
# Cの\だってそうだけど、あまり一般的でなかったからPacalにした。
# もちろんmulti byte文字を理解しない8bit throughの処理系の話。

>>484
EUCは、ISO 2022が出た時には準備万端だぞ?
JIS X 0208出た時には問題なしだろ。(それどころかC6226の頃かも)

486 デフォルトの名無しさん [sae] 投稿日:2005/10/18(火) 22:33:03

>>484
> 何に比べて「アメリカ製ソフトの日本語化に適していた」のかが書かれていないんだな。

いや、一番重要だったのは、既にあるJIS X 0201 Kanaを、
GRに割り当てたことを仮定しているプログラム/データ資産のはず。

PC-8001上のN-Basicで書かれたプログラムなど。

これを捨てて良ければ、EUC-JP相当のもので良かった。

487 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 22:48:43

>>485
GRに割り当てるのが正当化されたのは
もっと後のISO 2022の改訂からじゃなかったっけ?
複数バイト図形文字集合はG0=GLにしか割り当てられなかったはず

488 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 22:51:47

すくなくともX 0208より後なのは確実。X 0208とGB 2312のエスケープシーケンス
だけ他の複数バイト図形文字集合より短いのは、まさに当時
> 複数バイト図形文字集合はG0=GLにしか割り当てられなかったはず
だったからで、この制限がなくなってからも互換性のためX 0208の指示シーケンス
は1バイト短いまま。

489 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 22:55:31

> 'が2byte目に来たらPascalのリテラル文字列で困るんじゃないか?
'はシフトJISの2バイト目に来ないので困らないと思う。
(ISO 646 invariant云々は不適切だったので忘れてくれ)
つーか当時困らなかったからこれでいいと思って場当たり的に決めて
今になって困ってるわけだろ。
なんかどっかで聞いた話だな。きっと2バイトで足りるに違いな(ucs

490 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 23:04:55

JIS C 6228-1975
JIS C 6228-1984 のちにJIS X 0202-1984
JIS X 0202-1991 のちにJIS X 0202:1991
JIS X 0202:1998

491 デフォルトの名無しさん [sage] 投稿日:2005/10/18(火) 23:30:47

> 複数バイト図形文字集合はG0=GLにしか割り当てられなかったはず
なんでそんな仕様だったかというと、単独で使うことを想定してたんだろう。
(たしかそのためにC 6226の1区はASCIIと同じ並びにするという話もあったはずだが
どこ行ったんだ)
ASCIIの文字を全部含んでいればASCIIを使う必要はないと。
現実にはその見通しは甘かったばかりか重複符号化に苦しめられてるわけだが。

492 デフォルトの名無しさん [sage] 投稿日:2005/10/19(水) 00:18:06

>>490
変更があったのなら1984だろうね。1991ってことはないから。

493 デフォルトの名無しさん [sage] 投稿日:2005/10/19(水) 14:24:54

安岡孝一氏が日本での文字コードの歴史を書いている中で、
「シフトJIS の誕生」についても触れている。
きっちりと資料に当たって書かれている所がいい。

「日本における最新文字コード事情」
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications/ISCIE2001.pdf

494 デフォルトの名無しさん [sage] 投稿日:2005/10/19(水) 15:45:23

>>493
文献のところの吉田茂(内閣告示)の吉は、
士と土が混在しているけど、これはオリジナルに合わせてるのかな。

495 デフォルトの名無しさん [sage] 投稿日:2005/10/19(水) 17:50:27

鋭く細かい所に気づくなあ。面白い。確かに使い分けられているね。
http://www.aozora.gr.jp/kanji_table/touyoukanji_hyou/
ここの後の方に、当用漢字表のとき「土」になっている官報の画像版があって
確認できる。その通りにしたんだろう。
当用漢字字体表の時は「士」に変わったわけかな。
吉田茂の「吉」の字のエピソードを確かどこかで読んだけど、
あれは「JIS漢字字典」だったっけ。

496 デフォルトの名無しさん [sage] 投稿日:2005/10/19(水) 18:44:58

「JIS漢字字典」のコラム３、吉田茂の決断だね。
読売新聞社刊「日本語の現場」第二集の逸話だって。

497 デフォルトの名無しさん [sage] 投稿日:2005/10/19(水) 18:50:40

>>495
こんなところに取り込んだ画像があったんだね。

498 デフォルトの名無しさん [sage] 投稿日:2005/10/19(水) 22:56:17

>>492
1991はSSの後の1文字をGRにすることを認める変更じゃないの。
その前年に補助漢字ができてるから。
しかしJIS X 0208改訂のきっちり1年後に必ず後を追うように改訂してるな

499 デフォルトの名無しさん [sage] 投稿日:2005/10/20(木) 01:43:09

> AJ1-6をUnicodeで符号化するために
のソース。
http://www.imug.org/pastevents05.html#Jnames

500 デフォルトの名無しさん [sage] 投稿日:2005/10/20(木) 05:03:27

>>498
SSの後の1文字がGRにできるようになったのは1998年の規格から。

501 デフォルトの名無しさん [sage] 投稿日:2005/10/20(木) 08:59:11

>>499
ソース提供、ありがとう。
TRにないみたいなので、どこかなと思ってた。

502 デフォルトの名無しさん [sage] 投稿日:2005/10/20(木) 20:24:00

>>500
なんと、そんなに新しかったのか。
それまで公式にはEUC-JPのSS2/SS3の使い方はISO 2022に適合してなかったのね。

503 デフォルトの名無しさん [sage] 投稿日:2005/10/20(木) 21:16:31

>>501
さすがにTRにそんなことはモロに書かないよ
表向きの目的を掲げるだけでしょ

504 デフォルトの名無しさん [sage] 投稿日:2005/10/20(木) 22:00:26

あのさ俺の苗字ってハシゴ高なわけだけど

郵便物とか封書とかでハシゴ高印字してくるの
水道局だけなんだ。話はそんだけ
NTTは使ってないだけか？水道局はフォントがあるのか？
郵便局は出せるだろうけど、関係を作る方法が思いつかない
ハシゴ高廃止してもらって構わないんだけど、
通帳とか免許とか1文字だけ手書きなのうんざり

505 デフォルトの名無しさん [sage] 投稿日:2005/10/20(木) 22:27:27

私の名前には巳が含まれるのだが、某証券会社では已が使われていた。
その後その証券会社が吸収されても已のままだったのにさらに吸収されたら正しく巳になった。
さて、字形がおかしかったのか、そもそもコードもおかしかったのか……

506 デフォルトの名無しさん [sage] 投稿日:2005/10/20(木) 22:59:37

聡なんだが、不動産屋と契約したら、
不動産屋の死にかけのババアが勝手に聰で契約書作っていた。
不動産への登録もこっち。
更新の時に、前の人年寄だから漢字違っているけれど、
# くたばったババアはあちこちで勝手に旧字体にしていたらしい。
延長なのでこのままにしてください、ってそのままだったのが、
いつの間にか正しいのに変っていた。しかしこれ文字コード全然関係ない…

507 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 00:34:07

旧字旧かな厨氏ね

508 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 01:00:54

どこに旧字旧かな厨がいるんだよ
意味もなく煽る藻前が(ry

509 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 09:16:13

厨じゃなくて婆な

510 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 09:25:39

http://www004.upp.so-net.ne.jp/hitosen/ujina/ujina93.html
> 旧字体を通用字体に変更したい場合は、本籍地の役所で「文字更正の申し出」をすれば、
> 通用字体に変更することが可能です。手続はものすごく簡単です。

「文字更正の申し出」に当てはまらない氏名の変更は、
http://homepage1.nifty.com/lawsection/tisikibako/ujinohenkou.htm
> 家庭裁判所に「氏の変更の許可申立書」を提出します。

511 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 10:54:21

登記のための法務局提出書類にサインするとき、司法書士に
「斎」＝「齋」、「斉」＝「齊」、しかし「斎」≠「斉」、「齋」≠「齊」と言われた。
本当は「齋」なんだけど、めんどくさいから「斎」ですませた。
登記簿は「齋」になってた。

512 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 11:21:41

その時、使った実印は、オヤジが作ってたやつで「斉」だったが、
印鑑登録に字体は関係ないということか。
これ文字コードに関係あるのかな。

513 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 14:37:59

>>509
しかも既に亡くなっているし。

514 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 15:28:49

>>511
字源的には書士の言う通り。
JISとしては四つとも別の字。

>>511は特に"齋藤"とは書いてないが、「JIS漢字字典」の人名音訓を調べると、
済藤、斎藤、剤藤、斉藤、濟藤、齋藤、薺藤、齎藤、齊藤(区点順)
とJISの範疇内でもこれだけのサイトーの別があるらしい。

515 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 16:44:53

「人名外字1500V3」フォントの所をみると

●異体字のバリエーションもこんなに豊富です！
・斉藤の「斉」→３１種類

516 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 22:41:33

>>511
「斎藤」は元来、藤原一門の神事担当職と言ったニュアンスの伝統的な苗字。
「一斉」の「斉」には、「斎藤」の「斎」のような「さい」という音が元々はない。
勿論、「斎」のように神事を扱うという意味合いもない。

>>512
実印は明らかに読みが違うもの以外は苗字がなく名前だけでも大抵のものが登録できる。
例えば「阿久津美莉」さんが「㍉」なんて実印を作ることもできる。

517 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 22:49:44

今昔文字鏡の「斉」は68種。

518 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 23:29:36

「斎」と書いて「キンジェー」と読むらしいが、タイの方である期間ヴェジな生活を送るという
華僑由来のイベントがあるらしい。激しくスレ違いだが。

519 デフォルトの名無しさん [sage] 投稿日:2005/10/21(金) 23:30:45

で、その68種類の文字を区別しなければならないんですか？

520 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 00:30:21

他人事で済む奴はいつもそう言うんだ

521 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 01:16:01

おれには斉以外認識できない

522 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 03:02:47

中国語がTraditional ChineseとSimplified Chineseで別個の文字集合になっているように、
日本語もTraditional JapaneseとSimplified Japaneseで別個の文字集合にすればよかったんだ。

といい加減なことを言ってみるテスト。

523 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 05:54:04

>>520
むしろ他人事で済まされなかったらたまらんからだろ
済はさんずい+済なのになんで68種類ないんですか? とか
(こたえ: あまり苗字に使われない文字だから)

524 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 05:54:47

> さんずい+済
さんずい+斉orz

525 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 10:15:32

>>522
ソ連とアメリカが、東日本と西日本に分割していたら、そうなったかもね。

526 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 10:42:17

唐突なやつだな。
ソ連なんて地続きの樺太でもさんざんてこずって、北方領土をかすめとるのが
せいぜい、北海道にはとりつけもできなかったんだから分割なんてありえない。

527 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 14:40:07

正直「社長の名前を一発で変換できるIME」みたいなしょーもない話だと思う

528 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 15:49:02

日本の漢字って中国からパクったわりに発音どれもあってなさそうだよね、
日本らしくする為に名前全部ひらがな表記とかすればいい

529 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 18:35:02

バカなのか釣りなのか

530 デフォルトの名無しさん [sage] 投稿日:2005/10/22(土) 23:43:48

>>528
訓読みって知ってる？

531 デフォルトの名無しさん [sage] 投稿日:2005/10/23(日) 09:03:09

中国人も自国の文字のわりに発音どれもあってなさそうだわな。

532 デフォルトの名無しさん [sage] 投稿日:2005/10/23(日) 09:12:33

表意なのに形すら違うからな。

533 デフォルトの名無しさん [sage] 投稿日:2005/10/23(日) 22:11:11

>>530
きっと訓読みがない国の人なんだよ

534 デフォルトの名無しさん [sage] 投稿日:2005/10/24(月) 01:51:29

>>528
>>528
>>528
>>528
>>528

535 デフォルトの名無しさん [sage] 投稿日:2005/11/06(日) 13:08:33

新人名用漢字の「たまひよ」名前ランキング
http://women.benesse.ne.jp/hakase/sitemap/ranking.htm

536 デフォルトの名無しさん [sage] 投稿日:2005/11/07(月) 20:24:40

人気の漢字を見ると、凜と凛の入力ミス多発の予感

537 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 05:32:18

「同一の字種」だからどっちでもいいのでは？
つうかよくわからん「同一の字種」。

538 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 09:02:17

「１字種１字体の原則は維持するが、
例外的に１字種について２字体を認めることを排斥するものではない。」
よくわからんねえ。どっちでもいいんだか、区別せよと言うんだか

539 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 14:49:15

そもそも凜は凛の正字だからこちらの字体が人名用漢字として登録されたけど、
誰も使わないものだからなし崩しに凛も新人名用漢字として認められるようになった。
IMEから凜を簡単に入力できないというのも大きかったと思われ

540 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 16:25:27

　　　 _ 　∩
　　(　ﾟ∀ﾟ)彡　包摂！包摂！
　　(　 ⊂彡
　　|　　　|　
　　し ⌒Ｊ

541 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 16:37:04

でもって、この場合は「康熙字典」の字体の方が
俗字とされる「凛」だったりするわけで、
こっちが広く使われる由来だったりするんだろうか。これも分かりにくいなあ。

542 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 17:06:26

http://www.taishukan.co.jp/kanji/qa_shape.html#Q3048
こんな所にＱ＆Ａがあった。
>「凛（りん）」の右下の部分が「示」ではなく「禾」になっている字が、パソコンで出ないのですが、どうしてでしょうか？

543 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 17:07:41

http://jvn.jp/jp/JVN%2318282718/006082/index.html
正規化しなきゃしないでIDNの脆弱性だフィッシングだと
何をやっても文句を言われて大変ですなあ

544 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 17:12:36

>>542
IMEが変換しない(少なくとも当初の)理由は83JIS以前の機器で字が出ないから
「誤って」使われないようにするためだったと思われ
実際にはJIS(X 0208)に収録されている文字でさえこうなんだから
Shift_JISじゃ出せない文字なんてよほど強力に使用を推進しなきゃ
普及させられるわけないよなあ

545 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 18:58:48

もっともだ。この先も、90JISまでのフォントしか持っていない機器がある以上、
Vistaに新フォントが搭載されようが、JISX0213:2004の新しい文字なんて、
デフォルトの設定のままでポンポン出てくるなんて、無理な話だってことね。

546 デフォルトの名無しさん [sage] 投稿日:2005/11/08(火) 22:34:39

MicrosoftはIMEのデフォルト設定で印刷標準字体を優先して出すと言ってるけどね。
「2004JISでカモメの字体が訂正」とか不勉強にもほどがある記事が大真面目で
IT系のニュースサイトにすら掲載されるんだから
どれだけ鷗を使えることが知られていないか分かろうってもんだ

547 デフォルトの名無しさん [sage] 投稿日:2005/11/09(水) 05:14:37

堯槇遙および凛が人名用漢字に追加されたのに瑤と煕が追加されなかったのは
なんで？

548 デフォルトの名無しさん [sage] 投稿日:2005/11/09(水) 05:32:30

南堂さんが圧力をかけなかったから。

549 デフォルトの名無しさん [sage] 投稿日:2005/11/09(水) 06:35:10

妄想を鵜呑みにしてる奴発見

550 デフォルトの名無しさん [sage] 投稿日:2005/11/09(水) 07:31:43

>>547
単純に頻度が足りなかっただけ

551 デフォルトの名無しさん [sage] 投稿日:2005/11/09(水) 07:43:06

何しろ頻度が足りていれば
糞，屍，呪，癌，姦まで追加の検討対象になったくらいだし

552 デフォルトの名無しさん [sage] 投稿日:2005/11/09(水) 08:58:08

パブリックコメントに出したら、糞，屍，呪，癌，姦なんて入れるな!
という批判が多く出たおかげで、やっと削除できたというほどに
「常用平易」なら入れろという最高裁判決に困ってたみたい

553 デフォルトの名無しさん [sage] 投稿日:2005/11/10(木) 01:27:27

俺は「常用平易なら入れろ」に賛成だけどな。
意味的に不適切な字を削除しても無意味なことは
あくま君問題の結末が証明していると思うんだが。

554 デフォルトの名無しさん [sage] 投稿日:2005/11/10(木) 09:58:09

常用平易でも除外されてる文字があるのが謎

555 デフォルトの名無しさん [sage] 投稿日:2005/11/10(木) 16:01:55

南堂さんが(ry

556 デフォルトの名無しさん [sage] 投稿日:2005/11/10(木) 18:43:07

もうそのネタは秋(ry

557 デフォルトの名無しさん [sage] 投稿日:2005/11/10(木) 20:20:28

「糞」や「尻」を入れるんなら同程度に頻度の高い「肛」も入れろ、
第二水準差別するなゴルァという俺のコメントは黙殺されたけどな。

558 デフォルトの名無しさん [sage] 投稿日:2005/11/10(木) 23:51:35

委員「また、『やらないか？』か！」

559 デフォルトの名無しさん [sage] 投稿日:2005/11/11(金) 00:54:57

> 同程度に頻度の高い
の根拠が不明

560 デフォルトの名無しさん [sage] 投稿日:2005/11/11(金) 07:23:31

膣と肛門が同程度の頻度
根拠は不明

561 デフォルトの名無しさん [sage] 投稿日:2005/11/11(金) 13:01:36

>膣と肛門が同程度の頻度
両刀使いだから

562 デフォルトの名無しさん [sage] 投稿日:2005/11/11(金) 14:10:21

多くの文字コードに対応した外国産のWinアプリを使用しているのですがこのアプリで
SJISを指定して「ゾ」の文字を保存すると「ソ」、「 ] 」、16進でいうと 0x83, 0x5c, 0x5d と
3バイトで保存されてしまうのです。SJISの文字コード表でみると「ゾ」は、0x83,0x5d の
ようなのでこれはバグなのでしょうか？メモ帳などでこれを開くと「ソ」、「 ] 」と2文字で
表示されます。

563 デフォルトの名無しさん [sage] 投稿日:2005/11/11(金) 14:18:53

転はどうですか?

564 562 [sage] 投稿日:2005/11/11(金) 16:30:44

>>563 レス遅れました。
「貼」「 ] 」の2文字（3バイト）になりますね。2バイト目が0x5dの文字がダメってことですか。
でも（当たり前かもしれないが）このアプリで読み込めばちゃんと「ゾ」とか「転」とか表示
されるんですよね。そもそも３バイトにエンコードってありなんでしょうか？

565 デフォルトの名無しさん [sage] 投稿日:2005/11/11(金) 16:48:49

どういう訳か知らんが、閉じブラケット ] (0x5d) の手前に
バックスラッシュ \ (0x5c) を入れたいんだろうな

もちろんこんな処理は不正

566 562 [sage] 投稿日:2005/11/11(金) 17:00:49

>>565
なるほど0x5cは \ でしたか。そのアプリが ] の前に \ を入れたい
理由は分かりました。やっぱりアプリのバグのようです。
ありがとうございました。

567 557 投稿日:2005/11/11(金) 23:40:44

厳密に言えば、「尻」が圧倒的に多くて使用度数 3279 回 (1422位)。
続いて「肛」の 811 回 (2208位)　と「糞」の 773 回 (2236位) がほとんど
同じ。上位3000位まで取って候補を選定したんだから、ずいぶん上位に
入ってることが分かると思う。
これは、表外漢字字体表の選定にも今回の人名用漢字表の選定でも決定的な
役割を果たした(新)凸版調査の順位そのものなので >>561 の推測は間違い。
ちなみに、人名漢字のパブコメは、数が多すぎて、委員は法務省のまとめを
見ただけで、個別のコメントに目を通してはいないだろうと思う。

さらに言うと、驚くべきことに「膣」(399回、2623位)よりも「腟」(820回、
2197位) の方が多かったりする。それなのに印刷標準字体が「膣」であると
いうことに、この問題を理解する鍵がある。

568 デフォルトの名無しさん [sage] 投稿日:2005/11/12(土) 01:59:37

第二水準差別するなってそういう意味か。
第二水準の文字全部入れろとか言うよくいるアホかと思った

569 デフォルトの名無しさん [sage] 投稿日:2005/11/12(土) 08:56:48

とりあえず「腟」は解体新書を出すときに作られた字だと言う話を思い出した。

570 デフォルトの名無しさん [sage] 投稿日:2005/11/12(土) 09:26:40

腟=肉＋室＝にくむろか。
エロイな。

571 デフォルトの名無しさん [sage] 投稿日:2005/11/12(土) 11:34:54

>>553
> 意味的に不適切な字を削除しても無意味なことは
> あくま君問題の結末が証明していると思うんだが。
糞・尻が使えなくても久素・史理で「くそ・しり」と読ませるのは
許されるのだから無意味といったこと?

572 デフォルトの名無しさん [sage] 投稿日:2005/11/12(土) 11:39:07

かな文字もあるしな。

573 デフォルトの名無しさん [sage] 投稿日:2005/11/12(土) 11:57:25

ほとんど同意してしまう部分があるけど、
人名用漢字として選定する権限と責任のある仕組みの上では、
漢字は選定できても、読みは制限できないという点で別問題かも
とは思ってしまう。
もっとも人名用漢字の制度を設ける必要あるかないかに直結するかな。

574 デフォルトの名無しさん [sage] 投稿日:2005/11/13(日) 12:07:48

本当は怖い親権の濫用

575 デフォルトの名無しさん [sage] 投稿日:2005/11/13(日) 13:49:27

地名って一水、二水の範囲で網羅してるの？

576 デフォルトの名無しさん [sage] 投稿日:2005/11/13(日) 23:52:13

行政地名は網羅してるけど
地名はそれだけではない罠

577 デフォルトの名無しさん [sage] 投稿日:2005/11/14(月) 02:26:50

年賀状の宛先が書けないケースもあるってこと？
それとも、歴史上の地名とかの話？

578 デフォルトの名無しさん [sage] 投稿日:2005/11/14(月) 07:28:54

大たわ(山+定)とか。JISどころかCJK ExtBにもGT書体にもない。
年賀状に書く必要のある地名なのかどうか知らないけど。

579 デフォルトの名無しさん [sage] 投稿日:2005/11/14(月) 12:37:01

山にはよくあるけど >大たわ
尾根部分だから殆ど人住んでないだろーな。
山小屋なら「○○小屋」で通じるから住所いらないし。

580 デフォルトの名無しさん [sage] 投稿日:2005/11/14(月) 12:59:14

「山偏に定」と書いて「撓」の当て字とかあるな。
こういうの当て字っていうのか？

581 デフォルトの名無しさん [sage] 投稿日:2005/11/14(月) 14:37:34

>>575
http://pyrite.s54.xrea.com/timei/

582 デフォルトの名無しさん [sage] 投稿日:2005/11/14(月) 16:38:54

「タワ」って鞍部(尾根の釣り下がった部分)のことだろ?
要するに「垂れている」ってことなんだけど。(タル、タルミなど)
乢、垰とも書くよな。
道が尾根をクロスして登り下りすると峠になる。

583 デフォルトの名無しさん [sage] 投稿日:2005/11/14(月) 19:29:29

>581
すごいの見付けた

かわだ西広門田

どーゆー配分だこれ

584 デフォルトの名無しさん [sage] 投稿日:2005/11/14(月) 20:33:41

MS IMEの人名/地名モードもATOK2005も
「かわだ」で変換できるのがさすが。難読地名の代表なのかな。
かな文字より漢字の方が多いんじゃ、ふつう配分できんだろー

585 デフォルトの名無しさん [sage] 投稿日:2005/11/14(月) 22:13:10

流石て…ﾌﾂｳﾔﾝ...
川渡(カワド)が別の読みの地名とクッツイタという説があったような。

586 デフォルトの名無しさん [sage] 投稿日:2005/11/15(火) 09:44:31

MS IMEの変換モードが「一般」だと「りん」で「凛」は出ても「凜」は出ないから、
パソコンで出ないなんて話になるんだろうけど、
「人名/地名」モードに変えればどっちも出るし、一度「凜」使えば一般モードに戻してもOK。
これもフツウ。それすらしないから「凛」が大杉。

587 デフォルトの名無しさん [sage] 投稿日:2005/11/15(火) 10:40:26

そういうわけで>>539の
> なし崩しに凛も新人名用漢字として認められるようになった。
だとすると・・・

588 デフォルトの名無しさん [sage] 投稿日:2005/11/15(火) 23:07:31

JISの地名漏れ多すぎじゃね？こんなもん？

589 デフォルトの名無しさん [sage] 投稿日:2005/11/17(木) 00:13:14

個人的にはこの程度で済んでるんならかなりマシな部類だと思うが…

590 デフォルトの名無しさん [sage] 投稿日:2005/11/19(土) 03:14:33

78JISは「国土行政区画総覧使用漢字」昭和47年版の3251字をすべて収録した。
それ以後にJIS漢字にもないような難しい漢字の地名が新設されたとは思えないから
JIS漢字の地名の漏れはそのままこの資料の漏れと言っていい。
いわゆる「幽霊漢字」の多くもこの資料が典拠だし

591 デフォルトの名無しさん [sage] 投稿日:2005/11/19(土) 03:20:56

だから>>576に書いたように
> 行政地名は網羅してるけど
> 地名はそれだけではない罠

592 デフォルトの名無しさん [sage] 投稿日:2005/11/19(土) 04:10:51

俺もASCIIコード圏に生まれたかったよﾏﾏﾝ

593 デフォルトの名無しさん 投稿日:2005/11/19(土) 07:59:34

>>590
国土行政区画総覧じゃなくて日本行政区画便覧を使ってたらまた違ってたかもなぁ

594 デフォルトの名無しさん [sage] 投稿日:2005/11/19(土) 10:58:32

>>592
現代において文字コードに困らないのは結局ASCIIだけだしな
ISO-8859-Xたちもそれはそれで化け化けらしいし

595 デフォルトの名無しさん [sage] 投稿日:2005/11/19(土) 13:55:48

>>592
それは、アメリカに生まれたかったということで宜しいか?
#ヒント：ASCIIのフルスペリング

まぁ実際、英語を母国語とする英国でさえ一部文字コードがASCIIではないからねぇ。

596 デフォルトの名無しさん [sage] 投稿日:2005/11/19(土) 18:11:48

ブリテンにはスコットランドもウェールズもあるからね。

597 デフォルトの名無しさん [sage] 投稿日:2005/11/19(土) 18:14:56

ついでに言うとアメリカも今ではスペイン語人口が多い罠。

598 デフォルトの名無しさん [sage] 投稿日:2005/11/19(土) 21:14:44

ASCIIには、ユーロもポンドもないからねえ。

599 デフォルトの名無しさん [sage] 投稿日:2005/11/19(土) 22:05:10

つーかいい加減アメリカもメートル使えよな
いつまでもインチとかフィートとか言ってんじゃねーよ

600 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 03:28:00

ASCIIにバックスラッシュが入ったのは、“/\”で and を、“\/”で or を表現したかったALGOL厨の陰謀らしい。
Latin-1に、"oeリガチャ"（フランス語で、「心臓」とかを表すのに使う。超必須）が入らなかったのは、÷を入れたかったドイツの数学者の陰謀らしい。
ちなみに、Latin-1の0xFF (y diaeresis) を使う単語は、仏語に４つしかなく、そのいずれもがほとんど一般には使われないらしい。

601 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 03:54:33

つまり0xFFにoeリガチャを割り当てなかったフランス人ﾜﾛｽ、てことでFA?

602 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 04:18:55

どこも日本みたいな過ち犯してんのかよ
だせーなー

603 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 06:56:21

ISO-8859-1 の元になった DEC のコードでは「oeリガチャ」は確かに×÷の位置に
定義されてるね。「yダイアレシス」は今とは別の位置に定義されていて、大文字
もあったが、アイスランド語が書けるようにしようとか下手に色気を出したので、
アサッテの位置に追いだされたようだ。

604 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 08:35:02

そして文字コード指定のない(あるいは欠けてしまった)ISO-8859シリーズは、
日本の場合より悪いことに、コンピュータによる推測が絶望的だったりする。

どいつもこいつも0x20～0x7Fと0xA0～0xFFを使うことに変わりはないので、
日本のように「文字コードによってはこのバイトは使わない」ということがない。
(まず使わないだろう、というヒューリスティックな推測はできるけど)

しかしどこの文字コードも主に政治の結果が色濃いのが笑えるなｗ

605 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 08:47:04

Latin-1って名前もあれだよな、ドイツ語入ってんのに。

606 557 [sage] 投稿日:2005/11/20(日) 12:41:23

>>600
最近某所でそんな話を不味いノンアルコールビールを飲みながら聞いたんだが…。

607 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 12:57:53

そこでヨーロッパ人にとってはUTF-8サイコー
判定間違えて文字化けもしないぜウホッとなるわけですよ

608 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 14:01:01

日本は文字化け先進国
なれって怖いよねあたりまえのように数種扱い続けてる

609 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 14:20:19

>>608
漢字ひらがなカタカナalphabetが混在する物を当たり前のように扱ってきたからかもしれんｗ

610 デフォルトの名無しさん [sage] 投稿日:2005/11/20(日) 14:57:13

>>607
まあそれはユーロ記号の件が一番大きいんだけどな。
それ以前にも何度か混乱していた時期があると聞いたが、どうやって乗り越えたのやら。

611 デフォルトの名無しさん [sage] 投稿日:2005/11/21(月) 23:48:16

責任の一端はTeXにあるという説を提唱してみる。
やつが余計なお世話をしなければ、いかに愚鈍なヤンキーといえども
「あれ、文字、全然足りなくね？」
と即座に気づいたであろう。

612 デフォルトの名無しさん [sage] 投稿日:2005/11/25(金) 03:59:16

ASCIIにバックスラッシュが入ったのは、R.W.Bemerが、ALGOLのand と or を使えるようにしたかったため。
彼のホームページに経緯が詳述してあったけど、１年前に癌で死んでホームページが消されてから、
そのあたりの資料も一切合財が雲散霧消してしまった。

613 デフォルトの名無しさん [sage] 投稿日:2005/11/25(金) 04:13:34

le «ÿ» est utilise en gallois et en vieux francais.
On le recontre encore aujourd'hui dans des toponymes comme «l'Haÿe-les-Roese»,
des noms comme «de Croÿ», «Louÿ», or des expressions comme «kir à l'aÿ».
Cette lettre est extremement rare et son insertion dans ISO 8859-1 est pour le moins insolite.

614 デフォルトの名無しさん [sage] 投稿日:2005/11/25(金) 08:13:17

>>612
URLは? それが本当ならwaybackmachineに残ってそうなものだが。

615 デフォルトの名無しさん [sage] 投稿日:2005/11/25(金) 08:30:02

Character histories: notes on some Ascii code positions
http://www.cs.tut.fi/~jkorpela/latin1/ascii-hist.html

ASCIIの誕生←ここの参考文献[4]に載っているかも。
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications/ASCII.html

616 デフォルトの名無しさん [sage] 投稿日:2005/11/25(金) 21:06:40

>>615
> Character histories: notes on some Ascii code positions
> http://www.cs.tut.fi/~jkorpela/latin1/ascii-hist.html

そっからリンクがあったんだが、ドメイン屋にのっとられてる上に
robots.txtでwayback machineが弾かれてて軒並消滅してた。

617 デフォルトの名無しさん [sage] 投稿日:2005/11/25(金) 21:42:02

作業中だったら言ってくれよ
同じ末路たどってたゴール手前

618 デフォルトの名無しさん 投稿日:2005/11/28(月) 21:23:52

嘆や漢の右側だけの文字って文字コードはあります？できれば、旧字体のがあればいいんですけど...

619 デフォルトの名無しさん [sage] 投稿日:2005/11/29(火) 00:37:17

U+26C29にある。JIS(第4水準)やUnicodeの例示字形では新字体だけど
旧字体も包摂されてるはず

620 デフォルトの名無しさん [sage] 投稿日:2005/11/29(火) 01:12:43

般若心経は全部出るようになったんですかね

621 デフォルトの名無しさん [sage] 投稿日:2005/11/29(火) 07:38:47

もともと般若心経で JIS X 0208 になかった字は「罣」がひとつ
だけで、これは補助漢字にも X 0213 にもはいっているから
とうぜん出るでしょう。

622 デフォルトの名無しさん [sage] 投稿日:2005/11/29(火) 08:00:07

>>621
もうひとつ「埵」も X 0208 になかった字だけれど、
これも補助漢字・X 0213 の両方にある。

623 デフォルトの名無しさん [sage] 投稿日:2005/11/29(火) 09:38:26

もしかして、鳩摩羅什訳だと>>621で、玄奘三蔵訳だと>>622という違い?

624 デフォルトの名無しさん [sage] 投稿日:2005/11/29(火) 17:57:43

四
圭　これは？あとどうやって出したのその漢字

625 デフォルトの名無しさん [sage] 投稿日:2005/11/29(火) 18:11:20

ヒント：数値文字参照

626 デフォルトの名無しさん [sage] 投稿日:2005/12/01(木) 01:56:19

>>604
ISO-8859シリーズの判別にはEncaが使えるかもしれない。
ttp://trific.ath.cx/software/enca/

EUC-JP,KR,CNとかBig5の区別をするのに各言語の文字
出現頻度を使いたいんだが、どこかにリソースないかな?
日本語のデータはメーリングリストのログ等で準備できるんだが、
中国語、韓国語なんかはgoogleすらできないんだorz

627 デフォルトの名無しさん [sage] 投稿日:2005/12/01(木) 02:11:18

完成記念

観自在菩薩行深般若波羅蜜多時照見五蘊皆空度一切苦厄
舎利子色不異空空不異色色即是空空即是色受想行識亦復如是
舎利子是諸法空相不生不滅不垢不浄不増不減是故空中無色
無受想行識無眼耳鼻舌身意無色声香味触法
無眼界乃至無意識界無無明亦無無明尽乃至無老死亦無老死尽
無苦集滅道無智亦無得以無所得故菩提薩埵依般若波羅蜜多
故心無罣礙無罣礙故無有恐怖遠離一切顛倒夢想究竟涅槃
三世諸仏依般若波羅蜜多故得阿耨多羅三藐三菩提
故知般若波羅蜜多是大神呪是大明呪是無上呪是無等等呪
能除一切苦真実不虚故説般若波羅蜜多呪即説呪曰
羯諦羯諦波羅羯諦波羅僧羯諦菩提娑婆訶

628 626 [sage] 投稿日:2005/12/01(木) 04:38:12

２年以上前に同じことを考えた人がいた。
libcharguessというのでCJKのエンコーディングは判別可能みたい。
開発が停止しているのが残念だが、いちおう使えるのでよしとするｗ

ttp://sourceforge.net/projects/libcharguess/

629 デフォルトの名無しさん [sage] 投稿日:2005/12/01(木) 09:20:34

呪と咒は異体字だったのか。

630 デフォルトの名無しさん [sage] 投稿日:2005/12/01(木) 12:10:56

般若心経と並んでポピュラーな観音経（普門品第二十五）には「虫偏に元（U+8696）」
があるんだけど、X 0213から漏れてる。

　若惡獸圍遶　利牙爪可怖　念彼觀音力　疾走無邊方
→蚖蛇及蝮蠍　氣毒煙火燃　念彼觀音力　尋聲自迴去
　雲雷鼓掣電　降雹澍大雨　念彼觀音力　應時得消散
　　　　　　　　　　　　　↑これもX 0213

631 デフォルトの名無しさん [sage] 投稿日:2005/12/02(金) 07:07:45

明治以降の日本で用例が不足してたんだろう

632 デフォルトの名無しさん [sage] 投稿日:2005/12/02(金) 07:44:33

そういや文字コードの順番ってどうやって決めたん？

633 デフォルトの名無しさん [sage] 投稿日:2005/12/02(金) 11:20:55

>>630
ちゃんとはいってる補助漢字サイコー。

仏典関係でいうと「あぬるだ」の「ヌ」がExt-A(3779)で、かつ0213からも
抜けてるんだよなあ。

634 デフォルトの名無しさん [sage] 投稿日:2005/12/02(金) 12:59:17

>>632
第一水準は音読みの順になっている。第2水準は部首順。ほかは知らん。

635 デフォルトの名無しさん [sage] 投稿日:2005/12/02(金) 17:44:38

>>633
少
兔という字か。免でも同じか? フォントによって違うな。

636 デフォルトの名無しさん [sage] 投稿日:2005/12/02(金) 18:11:47

>>632 >>634
第一水準で1ヶ所だけ順番が狂ってるのはJIS漢字字典にもあるし結構有名？

637 デフォルトの名無しさん [sage] 投稿日:2005/12/02(金) 21:06:04

>>633
仏典・漢籍は補助漢字の方が強い。

638 デフォルトの名無しさん [sage] 投稿日:2005/12/05(月) 12:05:06

「千字文」ももうJISで書けるんでしたっけ。

639 デフォルトの名無しさん [sage] 投稿日:2005/12/06(火) 00:42:50

どのJISよ？

JIS X 0208: 書けない
JIS X 0212: 「清」の左側が「冫」の字がない。「清」でよければ書ける
JIS X 0213: 書ける（書けるように委員が要望したらしい）
JIS X 0221: 書ける

640 デフォルトの名無しさん [sage] 投稿日:2005/12/06(火) 09:34:53

> JIS X 0213: 書ける（書けるように委員が要望したらしい）

http://www.l-h.co.jp/lhcontents/l-hlib/senji_newjis.html
ここを見るとそう思えますね。U+9D7E [鵾] が第4水準に入ってる。
これのテキスト、なかなか良い。
ただ、「祇」がどうも気になる。「祗」の方が適切じゃないかと。

641 デフォルトの名無しさん [sage] 投稿日:2005/12/06(火) 22:52:03

ttp://tar-yan.cocolog-nifty.com/weblog/2005/11/unicode__sip_52b1.html
拡張Bのフリーフォント。たあやんのフォントは昔からお世話になってるけど
ここまでやるとは。

642 デフォルトの名無しさん [sage] 投稿日:2005/12/07(水) 00:29:58

>>640
をいをい「祇」と「祗」は全然別の字だぞ。
偏のネと示は字体の違いに過ぎないしJISでも包摂されてるけど。
まともな研究者ならしめすへんが示で書かれてないから
駄目なんて言ったりしないし「祗」で代用なんてありえない。

人名用漢字に「俺の苗字がない」って騒いでる奴の多くは
結局そういう絵合わせレベルでしか漢字の異同を認識できない素人なんだよなあ
とはいえ行政がそういう素人に合わせた運用してるんだから仕方ないよな

643 デフォルトの名無しさん [sage] 投稿日:2005/12/07(水) 03:27:58

>U+9D7E

JIS X 0213 に「学芸」としか書いてないのがあやしげ :-)

千字文はいろいろテキストがあるし、「祗」と「祇」は古くから混同されて
いるから、「祇」になっているテキストもあるのかも。

智永のを見たら「祗」になっていたが、「清」はさんずいだった。

644 640 [sage] 投稿日:2005/12/07(水) 09:39:28

> 「祇」と「祗」は全然別の字
だから、もしかして違うんじゃないと思ったということなんだけど・・・
岩波文庫版『千字文』の意味解釈からすれば、「祗」がよさげかと。
でも、「祇」になってるテキスト、けっこうあるかもね。

645 640 [sage] 投稿日:2005/12/07(水) 09:55:15

ついでに、
しめすへんが「示」か「ネ」かは、関係ないことです。
つうか、JISX0213:2004フォントで見れば、どっちも「示」でそこに差はない。

646 デフォルトの名無しさん [sage] 投稿日:2005/12/07(水) 12:23:50

そういえば以前、人名用漢字の表で、「祇」が正しいのに元が「示」を使っているせいで
「祗」を入れてしまったものがあったな。
JIS X 0208 の字体で見て、勘違いしたんだろう。表外漢字字体表があれでは仕方ないな。

647 GNU厨 [sage] 投稿日:2005/12/07(水) 16:44:06

>>641
> ｛転載等の注意｝フリーソフト（データ）です。
> 二次配布は作成者にｅ－ｍａｉｌにて、お問い合わせ下さい。

か。いわゆる自由なフォントではないみたいだな。

648 デフォルトの名無しさん [sage] 投稿日:2005/12/08(木) 01:44:11

神津島村に祗苗島（ただなえじま）って島があるんだけど、
http://www2.kankyo.metro.tokyo.jp/sizen/tyoujuu/hogoku/ichiran.htm
ではわざわざ袛を使ってる。まぁそんだけなんだけども。

649 デフォルトの名無しさん [sage] 投稿日:2005/12/08(木) 01:45:48

貼ってから気づいた。これ衣偏じゃんか

650 デフォルトの名無しさん [sage] 投稿日:2005/12/08(木) 07:34:26

>>649
またレアな字を……

マピオンの表示がちょっと受けた。
ttp://www.mapion.co.jp/c/f?uc=1&grp=all&nl=34/12/14.843&el=139/11/44.769&scl=25000&bid=Mlink

651 デフォルトの名無しさん [sage] 投稿日:2005/12/08(木) 09:00:36

子のスレに隊する朝鮮だな。

652 デフォルトの名無しさん [sage] 投稿日:2005/12/08(木) 09:14:57

どっちでもいいんだという高等な逃げとの解釈もあるかと。

653 デフォルトの名無しさん [sage] 投稿日:2005/12/08(木) 09:20:05

↓島の住民からの一言

654 デフォルトの名無しさん [sage] 投稿日:2005/12/08(木) 10:08:10

京都の祇園へ行くと祇園の「祇」が正字(示氏)ではなく
JIS83の字体(ネ氏)で書いてあるのがいっぱいある。

655 デフォルトの名無しさん [sage] 投稿日:2005/12/08(木) 11:32:59

「新漢語林」で引いたら、祇・祁は「ネ」の方も「示」と同字になってた。
つまり、JIS字体は俗字という扱いと違って、「同等に用いられてきた字体」とされてた。
「ネ」の示偏はかなり古くからあるのかな。

656 デフォルトの名無しさん [sage] 投稿日:2005/12/08(木) 13:04:33

ていうか、楷書だったら「ネ」だろ。

657 デフォルトの名無しさん [sage] 投稿日:2005/12/09(金) 04:32:45

結局しめすへんの話になってる……。

木簡に書かれた漢隷だとだいたい「示」のようだけど、>>656 が
いうように楷書は昔から「ネ」がふつう。薦季直表（３世紀）の
「神略」の「神」はすでに「ネ」になっている。
ttp://www.nisk.jp/shodokisochishiki/shodojinbutsujiten/img/no03_ph_02_l.jpg

658 デフォルトの名無しさん [sage] 投稿日:2005/12/12(月) 21:05:59

ttp://it.nikkei.co.jp/pc/news/index.aspx?i=2005121203753da
漢字12万字表示可能・東大教授らが世界最多のフォント集
東京大学の坂村健教授らは、約12万字からなる世界最多の漢字フォント集を制作した。
パソコンソフトに応用すれば、普段使わない難しい漢字や古い漢字を
パソコンで簡単に表示できるようになるという。
14日からソフト開発会社などに無償公開する。

659 デフォルトの名無しさん [sage] 投稿日:2005/12/13(火) 00:23:00

懲りない人だ。

660 デフォルトの名無しさん [sage] 投稿日:2005/12/13(火) 23:55:06

まあ、フォントは利用価値もあるからいいんじゃないの?
Unicodeとのmapping tableはあるのかな。

661 デフォルトの名無しさん [sage] 投稿日:2005/12/14(水) 12:30:30

東大・坂村研究室、約35万文字の漢字フォントを無償公開
http://pcweb.mycom.co.jp/news/2005/12/13/023.html

662 デフォルトの名無しさん [sage] 投稿日:2005/12/14(水) 12:51:26

>>661

>「宋明異体字」が34,499字
>「金文釈文文字」661字

を使うことによってどうして

>戸籍データベースの統合

の問題が解決するのか教えてくれ。

663 デフォルトの名無しさん [sage] 投稿日:2005/12/14(水) 15:18:25

文字数にこだわられてもな。
品質ってのも重要なんだけどな。

664 デフォルトの名無しさん [sage] 投稿日:2005/12/15(木) 02:15:55

なんかこう、
かゆい所に手が届かなくてイライラするってカンジだよな。

665 デフォルトの名無しさん 投稿日:2005/12/22(木) 14:40:33

加藤弘一って有名なの？
何か、今授業で文字コード熱く語ってるんだけど。
JIS X 0213を潰した戦犯の一人として芝野に恨まれてるって言ってる。

666 デフォルトの名無しさん [sage] 投稿日:2005/12/22(木) 15:44:04

>>665
南堂センセが有名だというような意味では、確かに有名。

667 デフォルトの名無しさん [sage] 投稿日:2005/12/23(金) 21:13:04

>>665
文字コード界の困ったちゃん。
南堂なみに電波なら害はなかったのだろうが、中途半端にまともなのが
困ったところ。

668 デフォルトの名無しさん [sae] 投稿日:2005/12/23(金) 21:49:19

サイトにあるインタビューにはいいのがあるね。

669 デフォルトの名無しさん [sage] 投稿日:2005/12/24(土) 08:01:14

>>660
GTとUnicodeのマッピングなら
http://www.open-text.com/download.htm
のCODETBL.LZHから作れそうだけど、Extension A/Bに対応する部分はない。

670 デフォルトの名無しさん 投稿日:2005/12/26(月) 00:30:40

Unicode 5.0β
http://www.unicode.org/versions/beta.html

日本に直接影響しそうな変更は今のところなさそうだが、

671 デフォルトの名無しさん [sage] 投稿日:2005/12/26(月) 00:53:03

このスレの住人的に char と wchar_t ってどうなの？

672 デフォルトの名無しさん [sage] 投稿日:2005/12/26(月) 02:18:53

typedef unsigned long long wchar;

#define char const wchar* const* const

673 デフォルトの名無しさん [sage] 投稿日:2005/12/26(月) 04:33:52

>>670
バージョンアップ早いねえ。

674 デフォルトの名無しさん [sage] 投稿日:2005/12/27(火) 00:59:19

>672
俺これでいいよ
union {
char utf8;
char jis;
char euc;
char sjis;
} kyarakuta;

もうこうしない？

675 デフォルトの名無しさん [sage] 投稿日:2005/12/27(火) 01:17:14

せめてunsignedは付けてくれ。

676 デフォルトの名無しさん [sage] 投稿日:2005/12/27(火) 01:23:27

>>675
こう？

unsigned union {
char utf8;
char jis;
char euc;
char sjis;
} kyarakuta;

677 デフォルトの名無しさん [sage] 投稿日:2005/12/27(火) 01:35:46

ああ、もうそれでいいや。

678 デフォルトの名無しさん [sage] 投稿日:2005/12/27(火) 02:20:34

UTF-8＝国際連合

679 デフォルトの名無しさん [sage] 投稿日:2005/12/27(火) 22:31:46

>>674-677
クスッた。でもガ板には貼らない。

680 デフォルトの名無しさん [sage] 投稿日:2005/12/28(水) 03:14:27

unsigned union カワユス

681 デフォルトの名無しさん [sage] 投稿日:2006/01/04(水) 22:51:29

某所の情報によると
Windows Vistaの新しいCTPではメイリオのデフォルト字形が変わっていて
>>256-あたりの問題は解消しているらしい。
ただしＭＳゴシック/明朝には相変わらず新しいほうの字形しか入っていないらしい。

682 デフォルトの名無しさん [sage] 投稿日:2006/01/04(水) 23:41:21

Shift-JISは誰が発明してたかが一部blogで話題になってるね。
http://slashdot.jp/~yasuoka/journal/334730
http://d.hatena.ne.jp/ogwata/20051229/p1
http://spaces.msn.com/members/furukawablog/Blog/cns!1pmWgsL289nm7Shn7cS0jHzA!2225.entry#comment

以下古川語録。

「それがまぎれもない史実であることは、当時のマイクロソフトの本社の廊下に256x256の升目と紙に切り抜いたブロックを紙片を
ずらしながら紙と鋏でマッピングの配置を山下さんが考え、それに対する助言をアスキーの西さんや、古川が求められた記憶があります。」
自分の脳内にあるから「史実」であると。古川氏ﾃﾗｵｿﾛｼｽ。

「99.99%の確立で、MSAの手書き漢字CP/Mのコード体系なる文書があるとすれば、それも山下さんの起草したものではないかと推測します。」
99.99%で論文は剽窃（他人の論文を自分の名前で発表）と断言。古川氏ﾃﾗｺﾜｽ。

683 デフォルトの名無しさん [sage] 投稿日:2006/01/05(木) 00:42:38

確率と確立を書き間違えている文章に信憑性はない。
これが定説。

684 デフォルトの名無しさん [sage] 投稿日:2006/01/05(木) 06:07:11

> それがまぎれもない史実であることは、～記憶があります。
とか日本語として変だし。
つーかシフトJISの発明者なんて別に名誉でもない(むしろ孫子の代まで
文字コード関係者から祟られそうな)称号なんてどうでもいいわけだが。

685 デフォルトの名無しさん [sage] 投稿日:2006/01/05(木) 06:49:13

「本人が言ってるのだから剽窃は史実ニダ! 謝罪と賠償を請求しる!」ってことですか。
# むしろわれわれ(誰?)が謝罪と賠償を請求したい
# 3種類の文字コードに対応させたり円記号問題を回避するために
# どれだけのコストが無駄になってきたことか

686 デフォルトの名無しさん [sage] 投稿日:2006/01/05(木) 07:59:01

よくまぁ、非関税障壁として訴えられなかったもんだw

687 デフォルトの名無しさん [sage] 投稿日:2006/01/05(木) 22:00:52

TRONは訴えられたけどなw
やっぱ政治力の違い?

688 479 [sage] 投稿日:2006/01/07(土) 02:42:50

MicrosoftのほうはMS漢字コードと呼び、デジタルリサーチのほうはシフトJISと
呼び、漢字スペースを漢字用のコードで表現するか20H２個で表現するかの
違いがあると本で読んだ気がする。
MS漢字コードは漢字スペースを20H２個で表現し、シフトJISは漢字スペースを
漢字用のコードで表現すると書いてあった記憶があるが、実際にMS-DOSを使って
みると漢字用のコードを使っていて「あれ？」と思った記憶もある。これは
古川享ブログでの話とは逆だ。
その本はアスキー出版のMS-DOSエンサイクロペディアだったような、
ちがったような、日経BYTEだったかも、あいまいな記憶しかない。
NECのPC-9800のMS-DOSのマニュアルには漢字コード体系についての名前が
見当たらなかった。Microsoft以外の人がMS漢字コードと呼んでいただけかも
しれない、一方デジタルリサーチ側は自分たちのコードにシフトJISという
名前を付けたのではないかと憶測でものを言ってみる。
で本当はどうなの？
　　　　　　　　名前　　　　漢字スペース
Microsoft　　　　　？　　　　　？
デジタルリサーチ　？　　　　　？

小形氏が『「シフトJIS」という名称を考えたのは、どなたなのでしょうか？』
と聞いているので回答があるといいなあ。

689 688 [sage] 投稿日:2006/01/07(土) 03:03:35

688です。名前の479は間違い（別スレの名前）でした。

690 デフォルトの名無しさん [sage] 投稿日:2006/01/07(土) 06:26:36

> (略)と本で読んだ気がする。
>>682の安岡センセイのblogに思いっきり書いてありますがな。
チラシの裏でもせめて読んでから書けば?

691 デフォルトの名無しさん [sage] 投稿日:2006/01/07(土) 10:47:27

つまり、MSAはディレクトリ区切り記号としてのバックスラッシュを意識する必要がなかった。
#CP/M(86)にディレクトリの概念がない上にUnixではスラッシュなのだから蓋し当然である。

当時はA-MSでさえディレクトリ名に漢字を使うことは想定外だったのだろう。
仮に想定していたのなら、その時点で対策をとったはずだ。
想定しつつ対策しなかったとすれば、無能である。

692 デフォルトの名無しさん [sage] 投稿日:2006/01/08(日) 00:09:52

いやCP/MやMS-DOS 1.0ではディレクトリの存在自体が想定外でしたから

693 デフォルトの名無しさん [sage] 投稿日:2006/01/08(日) 00:11:55

C言語がはやりだすのももっと後の時代になってからだしな

694 デフォルトの名無しさん 投稿日:2006/01/08(日) 01:18:49

ちょいスレ違いかもしれんが質問
iconv 関数の使い方がよくわからんで困ってるんですが
GNU iconv の使い方が纏まっているサイトかMLか掲示板ってないかしら？
iconv 関数から -1 が帰ってくるのに errno が 0 になってたりでわけわからんちん

695 デフォルトの名無しさん [sage] 投稿日:2006/01/08(日) 01:43:17

自己解決
ここでどうにかなりそう
ttp://www2d.biglobe.ne.jp/~msyk/cgi-bin/charcode/index.html
スレ汚しスマンコ

696 デフォルトの名無しさん [sage] 投稿日:2006/01/08(日) 03:02:40

>>694
ぐぐればman pageとかひっかかるのに。
他にはThe Single UNIX(R) Specification, Version 3とか。
http://www.unix.org/version3/online.html

697 デフォルトの名無しさん [sage] 投稿日:2006/01/08(日) 08:24:17

>>694
errnoってのは、システム絡みのエラーですよ。カーネルとか。
strlen(3)みたいな関数はerrno使わないんです。

698 デフォルトの名無しさん [sage] 投稿日:2006/01/08(日) 09:25:00

>>696-697
ありがとうございます
解決できたので、ご報告までに

Windowsの環境でiconv.dllからiconv関数を呼び出していたのですが、
iconv.dllはmsvcr71.dllのerrnoを設定していて、
呼び出し側はmsvcr80.dllのerrnoを見ていたのでうまく動作できていませんでした
呼び出し側もmsvcr71.dllからerrnoを取得するようにすることで正しいerrnoを取得できるようになりました

ホント、スレ汚しですいません

699 デフォルトの名無しさん [sage] 投稿日:2006/01/08(日) 16:19:21

>>697
つ http://www.linux.or.jp/JM/html/LDP_man-pages/man3/iconv.3.html

700 デフォルトの名無しさん 投稿日:2006/01/08(日) 22:23:27

X0213:2004の2-94-5のUCS対応がU+29FCEで例示字形がU+29FD7に
なってい.る件、どう解釈すれば良いのでしょうか。

JISとしてはUCS対応もU+29FD7にしたかったようですが、日本提案で
U+29FCEを追加させ、10646:2001が発行された後で気付いたという
間抜けなのでISOに拒否され、X0213で包摂しろという話になったよう
ですが、2004改正では括弧付きだったUCS対応がU+29FCEになった
だけで、包摂規準は追加されていず、例示字形も変更されていない
ようです。デザイン差なのでしょうか。

701 デフォルトの名無しさん [sage] 投稿日:2006/01/09(月) 03:59:10

そもそもUnicodeはJIS X 0213の包摂規準にないような包摂も行ってるから
JIS X 0213の立場ではUnicodeがどんな例示字形を使ってるかは関係ない。

ちなみにAJ1-6はどっちも同じグリフを割り当てている。
Mac OS X 10.2のヒラギノはU+29FD7にはグリフが入ってるけどU+29FCEには入って
ない。これTigerあたりだと解消されてるの?

702 デフォルトの名無しさん [sage] 投稿日:2006/01/09(月) 12:56:25

Simsun-ExtBやMingLiU-ExtBだとU+29FCEとU+29FD7に字形差がない（両方とも予鳥）。

703 デフォルトの名無しさん 投稿日:2006/01/09(月) 13:53:50

字形の差
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=29FCE
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=29FD7

UCS対応をU+29FD7に変更したいという申請
http://ra.dkuug.dk/JTC1/SC2/WG2/docs/n2334.pdf

10646の2001版と2003版の違い（最後のページの右上）
http://www.cse.cuhk.edu.hk/~irg/irg/CJK/IRGN972_CJK_B_FontIssues.pdf

なお、2001版の最終ドラフトは2003版と同じ字形だったようです。

>>701
U+29FCEがU+29FD7の字形（JISの字形）を包摂すると考えるのは
無理だと思います。又、JISがU+29FCEとU+29FD7を包摂する為には
新しい包摂規準が必要だと思います。結局、現状のJISとU+29FCEは
違いに包摂されない別の字というになります。

704 デフォルトの名無しさん [sage] 投稿日:2006/01/09(月) 19:31:26

そんなこと言われても規格で(JIS側、Unicode側ともに)U+29FCEに対応するって
明言されてるし。つーかN2324にはなんで間違いが生じたのかという肝心な点が
書かれてない。

以下JIS X 0213:2004の解説からの引用。
> この規格の2000年版の原案作成委員会では，もともと，2-94-5の字体として，この版の字体と異なる
> 形を用いていた。その字体に基づいて，この規格の2-94-5の追加のための国際提案を，ISO/IEC 10646を
> 担当するISO/IEC JTC 1/SC2/WG2のもとでCJK統合漢字を担当するIRG（Ideographic Rapporteur Group）
> に対して行い，国際的に承認された。それが，UCSの00029FCEである。
> しかし，この規格の2000年版の原案作成委員会は，原案作成作業の最終段階で，この規格の2-49-5を
> 現在の形に変更した。これは，偶然にも，00029FD7の形と一致していた。
> ISO/IEC JTC 1/SC2/WG2を担当するJSC2は，この状況を誤りとして認知し，00029FCEと00029FD7と
> を統合することによって訂正する可能性について，WG2 に問題提起を行った（ ISO/IEC JTC
> 1/SC2/WG2/N2334参照）。しかし，審議の結果，UCSと各国の国内規格との対応関係を変更することによ
> る実装上の混乱を問題視し，UCSの符号及び各国の国内規格（この規格を含む。）との対応を変更しない
> というWG2の基本方針を，この場合にも適用することが確認された。
> この規格が規定する2-94-5とUCSとの対応は，国際規格との整合性の立場から，WG2の決定に合わせ
> たものである。

N2353で却下されたときの回答。
http://anubis.dkuug.dk/JTC1/SC2/WG2/docs/n2353.pdf
> Mr. Mike Ksar - We will have to reject this Corrigendum request. JIS X0213 has
> changed the shape in almost non-distinguishable way. We recommend to Japan
> that these characters be treated as glyph variants and not change the current
> Part 2 source mapping.

以下も参照。
http://hp.vector.co.jp/authors/VA000964/pubrev03.htm

705 デフォルトの名無しさん [sage] 投稿日:2006/01/09(月) 19:50:53

N2353は引用だけじゃなくてちゃんと該当部分を全部読んでみることをお勧めする。

結論:
・JISの2-94-5とUCSのU+29FCEの例示字形の違いは、UCS的にはglyph variants
・しかしUCSの例示字形をそのまま実装すると、JISに適合しない(包摂規準がない)
・実際各社のJIS X 0213対応を主張する実装はそのまま実装していない(>>701-702)

706 デフォルトの名無しさん 投稿日:2006/01/09(月) 22:03:32

「UCS的に glyph variants である」ではなくて「JIS的に glyph variants に
しろ」と言っているように思えます。根拠は、UCSのUCSのU+29FCEの字
形を変更する提案が拒否（無期限保留）されていることです。U+29FCEは
日本起源なので、UCS的に glyph variants であるなら、日本の都合で字
形を変更しても構わない筈です。U+29FCEとU+29FD7の字形を同じにして
いる実装はUCSに適合しないのではないでしょうか。

私も今さらUCS対応を変更して良いとは思えません。やはり、JISの例示
字形をU+29FCEに合わせ、包摂規準を追加してU+29FD7の字形も包摂
するのが正しい処置ではないでしょうか。或いは、U+29FCEの字形には
堪えられないというのであれば、2-94-5を幽霊文字にして、改めて正しい
文字（U+29FD7相当）をJISに追加するべきかもしれません。

707 デフォルトの名無しさん [sage] 投稿日:2006/01/10(火) 13:48:07

Shift-JISコードだとさぁ、1バイトコードは半角、2バイトコードは全角って文字の幅
簡単にもとまるけどさぁ、当たり前だけどUnicodeは文字の集合とコードポイント決めてるだけで､
文字の幅に関して規則なんかないんだよね。フォントの問題になるのかな？
あぁ、エディタ作る時、カーソル移動の処理で面倒だな。
WindowsでもGetStringTypeExで半角か全角かなんて、正確に判別できるのか謎だ。

708 デフォルトの名無しさん [sage] 投稿日:2006/01/10(火) 13:57:25

>>707
そもそも、ShiftJISで1:2になると思う方がアナクロ。
プロポーショナルフォントだとそうならないからこそ、AAが作れるとも言える。
現に最近のGraphicalなIDEはプロポーショナルフォントを正しく使ったエディタを装備している。
#プロポーショナルフォントを等幅に配置するエディタもあるけどな。

709 デフォルトの名無しさん [sage] 投稿日:2006/01/10(火) 14:06:14

>>708
プロポーショナルの事は既に論外で、忘れてた。
つか、最近のプロポーショナルを使ってIDEって例えば何よ？調べてないけどVisual Studioの事？Eclipse??
でも、プログラミング用のエディタでプロポーショナルに完全対応しててもなんかメリットあるかね？？
一般の文章書くならいいかもしれんけど。

710 デフォルトの名無しさん [sage] 投稿日:2006/01/10(火) 14:14:20

メリット? 勿論、英語が読みやすいことだな。
記号だらけのアセンブラやperlならいざ知らず、それらでさえコメントを書くことを考えれば
プロポーショナルの恩恵は大きいと思うが。

711 デフォルトの名無しさん [sage] 投稿日:2006/01/10(火) 18:07:44

>>707
GetStringTypeExの全角半角の判定は単に予めどれが全角でどれが半角か決められているだけでは？

712 デフォルトの名無しさん 投稿日:2006/01/10(火) 20:46:19

一応は基準があります。
http://www.unicode.org/reports/tr11/tr11-14.html

これを読むとマイクロソフトの変則マッピングを支持したくなりますが、
X0213にマクロンやチルダが追加（X0208からある上線とは別に）が
された時点で破綻しています。

ユニコードの全角マクロンが鬼子ですね。X0201でチルダと同じに
置かれているし、訓令式ローマ字表記はマクロンを多用しているので、
西洋人が勘違いするのも無理は無いのですが。

713 デフォルトの名無しさん 投稿日:2006/01/10(火) 20:49:55

X0201でチルダと同じに「位置に」置かれているし

X0208の上線の位置も単なる幾何学記号なのか変音符なのか微妙。

714 デフォルトの名無しさん [sage] 投稿日:2006/01/10(火) 22:22:45

PHP には
mb_strwidth -- 文字列の幅を返す
ttp://jp2.php.net/manual/ja/function.mb-strwidth.php
なんてのが

715 デフォルトの名無しさん [sage] 投稿日:2006/01/11(水) 02:55:20

原規格主義の人はISO/IEC 10646:2003 Amendment 1 を購入して、29FCE で検索してみると
何かいいことある「かも」。　買うの嫌だという人はN2926あたりで同じキーで検索すれば・・・

>>704
解説ではもってまわったことしか書いてないけど、要するに、JIS X 0213の某委員が、規格出版直前に突然、「えい♪」と
2-94-5 の字体を独断で変えたんらしいんだな。するとそれが、たまたまU+29FD7の形と一致してしまったと。

慌てた国際担当の委員の人が、何とか10646の出版規格に記載（電子）されている対応関係を変更できないか、と
国際委員会にお伺いをたててみたけど、「一度決まった対応関係は絶対に変更できんのじゃゴルァ。
変えるなら対応じゃなくて字形の方だゴルァ」と却下されたらしいんだな。
で、それは至極もっともなんで、すごすごと引き下がったと。

ところが某社のＯＳ開発者は、この一連の経緯の文書を中途半端に読み、また実際の字形を見て、てっきり2-94-5は
U+29FD7になると早とちりしてしまい、自身のＯＳフォントにそのコードで文字を入れてしまったんだろうな。
（この誤解を助長するような某出版物も出てしまったこともあるけど。）
そのＯＳは当時、たまたま「先進的に」JIS X 0213 の対応を謳ってたし、引きずられて誤解した人もいたんだろうな。

しかし粛々と改正作業はすすみ、今回の10646改正で、一応、この件はカタがついた、と。こんなところじゃない？
同じ字形の文字が複数個あるのは気持ち悪い？何を今更。　よーくExt Bを見ると、他にもほら、あちこちに・・・orz.

716 デフォルトの名無しさん [sage] 投稿日:2006/01/11(水) 07:06:30

> 根拠は、UCSのUCSのU+29FCEの字形
> を変更する提案が拒否（無期限保留）されていることです。
これのソースは? >>715によれば2003 Amd.1で訂正され「た」みたいだけど

> 2-94-5を幽霊文字にして、改めて正しい
> 文字（U+29FD7相当）をJISに追加するべきかもしれません。
これ以上ISO 2022系の規格を延命する必要はないと思うが
やるならヒキヅナの正しい文字を追加してもらいたい

717 デフォルトの名無しさん [sage] 投稿日:2006/01/11(水) 07:07:51

そういやExtension Bをマルチカラム化するって話はどこに行ったんだろう
満場一致で決定してたような気がするんだが

718 デフォルトの名無しさん [sage] 投稿日:2006/01/11(水) 07:23:27

> 同じ字形の文字が複数個あるのは気持ち悪い？
気持ち悪いだけでなくて最近だとフィッシングの問題があるな
4万字分の危ない文字のテーブルを持つのは実用的じゃないし
どうしたらいいのやら

719 デフォルトの名無しさん [sage] 投稿日:2006/01/11(水) 10:49:24

多言語化なんかやめてしまえばよい

720 デフォルトの名無しさん [sage] 投稿日:2006/01/11(水) 15:58:18

英語圏のインテリどもに1ヶ月でいいからsjis使わせよう
全角のカタカナあたり空けてみっちり
極東の猿に同情してもらおう！
バイト列を丁重に持て成せ！

721 デフォルトの名無しさん [sage] 投稿日:2006/01/11(水) 18:03:18

意味わからん

722 デフォルトの名無しさん 投稿日:2006/01/11(水) 20:47:03

Thanks >>715

| > を変更する提案が拒否（無期限保留）されていることです。
| これのソースは? >>715によれば2003 Amd.1で訂正され「た」みたいだけど

「無期限」ではなかったようですね。Amd.1は気が付きませんでした。
（Amd.1の発行日は2005月11日18日）

それならそうとX0213に10646が改正される予定と書いておいて欲し
かった。X0213:2004の発行から一年近く不整合になっていたのは
確かだし、X0221で考えると今でも不整合のままなのでは。

とにかく、すっきりしました。もう一度、Thanks >>715

723 デフォルトの名無しさん [sage] 投稿日:2006/01/12(木) 00:28:17

>>722
X0221-1:2001にはExt.Bが含まれていないけど、今改正中のX0221には
Amd.1は反映されていないはずだから「これから」不整合になりそう。
(それともどうにか突っ込むのかな?)
日本独自の解説に期待しましょうか。X0213対応の日本語レパートリも
(ようやく)作られるはずだし。

724 デフォルトの名無しさん 投稿日:2006/01/12(木) 23:12:32

| X0221-1:2001にはExt.Bが含まれていないけど、
はい。そうでした。

もう一件、前から疑問に思っていることがあります。これは他所で
聞いた事が無い話なので、ひょっとすると、指摘するのは私が最初
かもしれません。

面区点1-11-60（合成可能なグレーブアクセント）は、普通、単純に
U+0300にマッピングすると思います。ですが、X0213の合成可能文字は
現在位置の前進を伴わない文字とされているので、修飾される文字の
前に置くものだと思います。一方、U+0300は修飾される英字の後に置く
ものです。JISとUCSの間で変換するとき、順序を交換しなければ
ならないような気がするのですが、そういう事をしているのは見た事が
有りません。私の思い込みでしょうか。

725 デフォルトの名無しさん [sage] 投稿日:2006/01/13(金) 05:02:01

U+0300も(実装されていれば)現在位置は前進しないよ。
左ベアリングがマイナスなだけ。
確かに現実の活字で左ベアリングをマイナスにすることは不可能だと思うけど

726 デフォルトの名無しさん [sage] 投稿日:2006/01/13(金) 12:04:27

>>724
>ですが、X0213の合成可能文字は
>現在位置の前進を伴わない文字とされているので、修飾される文字の
>前に置くものだと思います。
そんなことない。

727 デフォルトの名無しさん [sage] 投稿日:2006/01/13(金) 14:58:14

>>724
「現在位置の前進を伴わない文字」ってのはnon-spacing characterと同義で、
Unicodeの結合文字も（つまりU+0300も）non-spacing characterの一種。
つーわけで「現在位置の前進を伴わない文字」という用語には
「基底文字の前に置かれる」なんて意味は含まれていない。

728 デフォルトの名無しさん 投稿日:2006/01/14(土) 02:43:07

X0213の合成文字の左ベアリングがマイナスであることを、UCS対応以外
の記述から確認（又は推測）することは出来ますか。

#
そうでないという記述も見付けられないのですが、ユニコード以前は
non-spacing文字をspacing文字の前に置くのが常識だったと思います。
それを明文化したものとして ISO 6937 ((CCITT T.51) がありますが、
残念ながらネットでは見られないようです。下記URLの4.1の注釈で、
6937のアクセント文字の配置が10646の逆であることが述べられて
います。

http://www.w3.org/TR/1999/WD-charmod-19991129/

X0213と6937が同じだというつもりはありませんが、X0213のUCS対応
のみを根拠にして、non-spacing文字の配置が従来と逆になると判断
するのには少し抵抗があります。

729 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 07:36:29

6937はタイプライターでの実装を想定してるから。
>>725でも書いたけどタイプライターで左ベアリングをマイナスにするのは
不可能でしょう。
その後、テキストVRAMでは重ね打ちが不可能だから8859になった。
> ユニコード以前は
X0213ってUnicodeよりぜんぜん後だし。
でもそう言われてみると確かに具体的な合成のやり方が書かれていない
気がするな。97JISの解説で「合成可能といいつつ合成の実装方法が不明」と
過去の規格票を批判してたのはなんだったんだ?

730 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 07:44:53

芝野センセイによると6937はタイプライターモデルで10646は活字モデルなんだそうな。
http://libsys.lib.keio.ac.jp/proc020125/naiyo020125_1.html
>>725で活字では云々と書いたのはスマンありゃ嘘だった

731 デフォルトの名無しさん 投稿日:2006/01/14(土) 09:39:31

>>708
プロポーショナルフォントに対応すること自体は大いに結構なのだが、
その副作用で等幅フォント使ったときに上下の文字位置がずれるのは
勘弁してほしい。
Eclipse とか Eclipse とか Eclipse とか。

732 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 09:42:48

>>731
そんなに嫌なら使うなよ。

733 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 10:19:40

この場合の使うなというのはEclipseを? プロポーショナルフォントを?

734 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 10:44:27

コンピュータ

735 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 11:19:02

Eclipseのコードフォーマットは全角半角問わず指定した文字で折り返すので
マジ使い物にならん

736 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 11:19:23

> 指定した文字で
指定した文字数で

737 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 11:43:04

http://pag.csail.mit.edu/~adonovan/hacks/eclipse-emacs.html

738 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 12:52:51

>>737
スレ違いにレスもなんだが、これ使いものになるならありがたいな。

739 デフォルトの名無しさん [sage] 投稿日:2006/01/14(土) 15:59:46

>>728
>X0213の合成文字の左ベアリングがマイナスであることを、UCS対応以外
>の記述から確認（又は推測）することは出来ますか。

いや、0213が規定しているのは「合成可能」というところまでで、
具体的な合成方法は規定していない。

「合成する場合に基底文字の前か後かがあいまいだから
明確化したほうがいいんじゃないか」という話は5年以上前に
某MLで出て、某オブザーバーが委員会に持ち込んだが、
結局訂正票には反映されなかったようだ。

740 デフォルトの名無しさん [sage] 投稿日:2006/01/15(日) 02:49:35

どうせ誰も既存のシフトJISのシステム上で合成なんか実装しないと
思ってるんだろうな

741 デフォルトの名無しさん 投稿日:2006/01/15(日) 18:30:13

>>728
JIS X 0213:2004の例えば1-11-36→<00E6,0300>と対応させた例に基づくと、
X0213は、合成列では基底文字の後に結合文字を並べるとする
X0221の規定を踏襲しているものと推定できるのでは?

742 デフォルトの名無しさん 投稿日:2006/01/15(日) 19:59:51

みんな UNICODE を utf8 で使え。メールはそれを Base64 にして送れ。

以上。

743 デフォルトの名無しさん [sage] 投稿日:2006/01/15(日) 21:58:35

なんでwindowsのunicodeはutf-8じゃないんだ？

744 デフォルトの名無しさん [sage] 投稿日:2006/01/15(日) 22:07:42

UTF8を扱えるほど優秀なプログラマが居ないからであります、サー！

745 デフォルトの名無しさん [sage] 投稿日:2006/01/15(日) 22:57:32

>>743
当時はもう1byte文字２byte文字の区別が要らなくなる。
全て1文字は2byteで統一されると信じていたから。

746 デフォルトの名無しさん [sage] 投稿日:2006/01/15(日) 23:01:09

UTF-16 はもうさよならなの?

747 デフォルトの名無しさん [sage] 投稿日:2006/01/15(日) 23:09:12

UTF-16はいいけど、Windowsの古いUnicode対応部分はUCS-2だろ?

748 デフォルトの名無しさん [sage] 投稿日:2006/01/16(月) 00:35:28

WindowsXPでサロゲート対応したらしいけど、面倒くせぇなぁ。
可変長面倒くせぇなぁ。
でさぁ、OSがUnicode対応したのはわかってるけどさ、XPで標準でインストール
されるUnicodeフォントってどのくらいの文字数カバーしてんのかな？？
やっぱ、Unicodeにアプリも本格対応しだすのは、メイリオ搭載のVistaからかな？？
つか、DBアプリでさDB側でUnicodeのキャラクタセットってどのくらい使われているのかな？
やっぱ、いくらDB側のキャラクタセットがUnicodeでもクライアントが表示できなきゃ意味ないよね。

749 デフォルトの名無しさん [sage] 投稿日:2006/01/16(月) 00:37:22

その為に NLS がある

750 デフォルトの名無しさん 投稿日:2006/01/16(月) 01:37:49

| X0213ってUnicodeよりぜんぜん後だし。

「ユニコードは妙なことをしてるんだなぁ」と思っていましたが、「昔は妙な
ことをしていたんだなぁ」って思うべきなのですね。確かに、今となっては
ユニコードが世間の常識ですね。

| どうせ誰も既存のシフトJISのシステム上で合成なんか実装しない

ごもっとも（笑）

751 デフォルトの名無しさん [sage] 投稿日:2006/01/16(月) 04:53:11

>>748
ひとつのフォントにすべての文字を詰め込むなんて発想はUnicode 2.0時代の遺物です。
http://d.hatena.ne.jp/kazama/20041207/p2

752 デフォルトの名無しさん [sage] 投稿日:2006/01/16(月) 16:09:00

>>751
そうだったんか、知らんかった。

753 デフォルトの名無しさん [sage] 投稿日:2006/01/16(月) 17:15:17

Windows 2000からフォントリンクがあるからそれでとりあえずはなんとかしろ。

754 デフォルトの名無しさん 投稿日:2006/01/18(水) 13:22:55

EUC←→SJISの変換だけができる、ごくごく小さい
ライブラリってあります？ C言語用で。

755 デフォルトの名無しさん [sage] 投稿日:2006/01/18(水) 15:29:15

自分で書くのが一番早い

756 デフォルトの名無しさん [sage] 投稿日:2006/01/18(水) 16:16:48

>>754
スレ違い。

757 デフォルトの名無しさん 投稿日:2006/01/18(水) 20:45:20

>>754

単純なEUC-SJIS変換だと、片道10ステップ程度なので、ライブラリになる
ような規模ではない。で、JVC外字とかX0213とか言い出すと仕様が発散
して綺麗なライブラリーにならない。あるかもしれないけど、定番というもの
はないので、自分で書く方が利口です。

758 デフォルトの名無しさん [sage] 投稿日:2006/01/18(水) 23:42:23

>>754
ttp://web.archive.org/web/20040220152952/ href="http://alfin.mine.utsunomiya-u.ac.jp/~niy/algo/s/sjis2euc.html">http://alfin.mine.utsunomiya-u.ac.jp/~niy/algo/s/sjis2euc.html
ttp://web.archive.org/web/20040208203415/ href="http://alfin.mine.utsunomiya-u.ac.jp/~niy/algo/e/euc2sjis.html">http://alfin.mine.utsunomiya-u.ac.jp/~niy/algo/e/euc2sjis.html

759 デフォルトの名無しさん [sage] 投稿日:2006/01/19(木) 03:06:40

static inline unsigned sjis2jisKanji(unsigned char * dest, unsigned char const * src)
{
#if 0 // 仕様のまま実装した例。理解のために残す。
if (code1 >= 0xe0) {// 1バイトカナの隙間
code1 -= 0x40;
}
if (code2 >= 0x80) {// 0x7fの穴
--code2;
}
if (code2 >= 0x9e) {// 偶数ブロック
code1 = (code1 - 0x70) * 2;
code2 -= 0x7d;
} else {// 奇数ブロック
code1 = (code1 - 0x70) * 2 - 1;
code2 -= 0x1f;
}
#endif
unsigned code1 = src[0];code1 = code1 * 2 - 0xe1;
code1 &= 0x7f;// 1バイトカナの隙間
unsigned code2 = src[1];code2 -= 0x1f;
if (code2 > 0x7f - 0x1f) {// 0x7fの穴
--code2;
}
if (code2 >= 0x7f) {// 偶数ブロック
code2 -= 0x5e;
++code1;
}
dest[0] = code1;dest[1] = code2;return 2;
}
static inline unsigned sjis2eucKanji(unsigned char * dest, unsigned char const * src)
{unsigned rtn = sjis2jisKanji(dest, src);dest[0] |= 0x80;dest[1] |= 0x80;return rtn;}

760 デフォルトの名無しさん [sage] 投稿日:2006/01/19(木) 23:51:21

UCS2<===>EUC-JPの変換表で
005c<===>5c '\'
007e<===>7e '~'
ff3c<===>a1c0 '＼'
ff5e<===>8fa2b7 '～'
のところが
005c<===>5c '\'
007e<===>7e '~'
005c<===>a1c0 '＼'
007e<===>8fa2b7 '～'
となっている物があったのですが、理由はなんでしょうか?

761 デフォルトの名無しさん [sage] 投稿日:2006/01/20(金) 13:26:06

ttp://www.opengroup.or.jp/jvc/cde/ucs-conv.html#ch3_1_1

762 デフォルトの名無しさん [sage] 投稿日:2006/01/20(金) 19:59:19

その変換表だとa1c0で \ のサニタイジングを貫通されそうで怖い

763 デフォルトの名無しさん 投稿日:2006/01/20(金) 23:06:48

UCS<===>EUC-JP
005c<===>5c '\'
007e<===>7e '~'
005c<===>a1c0 '＼'
007e<===>8fa2b7 '～'

微妙に誤記がありそう。UCSの005cはEUCの何になる？

764 デフォルトの名無しさん [sage] 投稿日:2006/01/21(土) 07:47:39

>>763
多対一マッピングじゃないの? 確かJDKがそういう変換をする。
プログラミング言語なのでASCIIの範囲はそのままマップするしかないけど
それ以外は可能な限り規格票に忠実な変換をするというポリシーだった希ガス

765 デフォルトの名無しさん [sage] 投稿日:2006/01/21(土) 08:14:46

ってEUCか。Shift_JISなら分かるんだけど

766 デフォルトの名無しさん [sage] 投稿日:2006/01/21(土) 08:45:53

005c<===>5c '\'
007e<===>7e '~'

であれば、

005c<===>a1c0 '＼'
007e<===>8fa2b7 '～'

はありえなくて、

005c<===a1c0 '＼'
007e<===8fa2b7 '～'

でしょう?
そこんところはちゃんとして。

767 デフォルトの名無しさん [sage] 投稿日:2006/01/21(土) 09:19:15

まぁ、言葉の厳密な定義なんて、決まってないかもしれんし、色々あると思うけど､
Unicode --> 文字セットを定義し、各文字に一意のコードポイントを定義
UTF-8, UTF-16, UTF-32 --> エンコーディングスキームでUnicodeの文字セットのコードポイントを
どのコードユニットにマッピングさせるかを定義。
まぁ、そんな感じに俺は言葉を使ってる。
UCS-2とかは、まだ、お勉強中。

768 デフォルトの名無しさん 投稿日:2006/01/21(土) 13:11:11

>>764

005c<===>5c '\'
005c<===　a1c0 '＼'

なのか

005c<===　5c '\'
005c<===>a1c0 '＼'

なのか

00a5<===>5c '\'
005c<===>a1c0 '＼'

なのか

これで話が違ってくるのだが。

769 デフォルトの名無しさん [sage] 投稿日:2006/01/21(土) 15:32:33

そもそもEUCの0x5cは円マークじゃ無いでそ。

770 デフォルトの名無しさん [sage] 投稿日:2006/01/21(土) 15:39:04

JIS X 0201を採用しているベンダもある

771 デフォルトの名無しさん [sage] 投稿日:2006/01/21(土) 18:09:07

yen &#a5;
backslash c;

772 デフォルトの名無しさん [sage] 投稿日:2006/01/22(日) 23:11:31

￥ ¥ \

773 デフォルトの名無しさん [sage] 投稿日:2006/01/25(水) 00:40:08

yensignとbackslash を適切にutf-8に移行させる方法は？

774 デフォルトの名無しさん [sage] 投稿日:2006/01/25(水) 02:01:00

>773
究極的には自分で「適切」と思われるコンバータ書くしかないんでは。

775 デフォルトの名無しさん [sage] 投稿日:2006/01/25(水) 07:49:37

¥と\

776 デフォルトの名無しさん [sage] 投稿日:2006/01/25(水) 07:51:07

printf("そのコンバータの値段は¥4です。\n");

777 デフォルトの名無しさん 投稿日:2006/01/25(水) 21:44:37

>>773

yensign と backslash というのは　yen sign と back solidus のことですか。
もし、そうなら、簡単です。

yen sign は 5c (u+005c)
back solidusは c2a5 (u+00a5)

これ以外の方法はありません。他は全て誤りです。でも、万一、yensign が
fullwidth yen sign を意味しているとしたら話が変わってきますので、そこの
ところ、もう一度、ご確認くださいませ。

778 デフォルトの名無しさん [sage] 投稿日:2006/01/25(水) 22:07:06

というのは誤りです。

779 デフォルトの名無しさん [sage] 投稿日:2006/01/25(水) 22:37:55

>>777
REVERSE SOLIDUSちゃいますの?

780 デフォルトの名無しさん 投稿日:2006/01/26(木) 00:22:03

書きながら何か違和感があると思ったんだが、そういうことだったのか。

orz

781 デフォルトの名無しさん [sage] 投稿日:2006/01/26(木) 14:09:14

>>777は釣りの類なのか？

782 デフォルトの名無しさん [sage] 投稿日:2006/01/26(木) 14:42:56

結局>>776はどうすんだよ?

783 デフォルトの名無しさん [sage] 投稿日:2006/01/26(木) 18:24:48

ソース内で意図的にyen使ってる奴は漢の中の漢

784 デフォルトの名無しさん 投稿日:2006/01/26(木) 20:42:18

777です。間違えたのは素で間違えたので釣る積もりはなかったです。
でも、冗談半分、本気半分。

まじめな話、元のコードは何なのかってこと。ASCIIなのかX0201なのか。

X0201ならC的に誤り。エスケープシーケンスの逆スラッシュを円記号で
代用することはANSIでもISOでも許されていない。理屈からいうと??/と
するべきだが、これは飽くまでも理屈でしかない。

実用上、ASCIIだと思うしかない。だから、円記号はX0208の216fに書き
換えるしかない。或いは、逆スラッシュの形状が円記号に見えるフォントを
使いつづけるか。誰が見ても円記号に見えるけど、これは逆スラッシュを
デフォルメしたものなのですと言い張る。

785 デフォルトの名無しさん [sage] 投稿日:2006/01/26(木) 21:12:13

> 誰が見ても円記号に見えるけど、これは逆スラッシュをデフォルメしたものなのですと言い張る。

MSは本気でこういうこと逝っているんじゃなかったっけ?

0x5cは見た目はYEN SIGNだけどREVERSE SOLIDUS。誰がなんといおうとも￥はREVERSE SOLIDUS。
ｱｯﾋｬｯﾋｬ!ヽ(ﾟ∀ﾟ)ﾉ

786 デフォルトの名無しさん [sage] 投稿日:2006/01/26(木) 21:39:47

>>784
JIS Cでは「X0201を使うならバックスラッシュを円記号に置き換える」と書いてある。

787 デフォルトの名無しさん [sage] 投稿日:2006/01/26(木) 22:02:19

「JIS X 0201の文字集合を使うから」となっているのかな?

それならShift_JISでは¥でいいということですね。
cp932ではどうなってんだ? >>785なのか?

788 デフォルトの名無しさん [sage] 投稿日:2006/01/26(木) 22:27:10

UNICODEの日本語ソート順序、」みたいな
一見すると訳わからんものをMSは実装している。

789 デフォルトの名無しさん [sage] 投稿日:2006/01/26(木) 22:33:13

>>787
MSの資料 Windows Codepage 932
ttp://www.microsoft.com/globaldev/reference/dbcs/932.mspx
では、字形は￥で、5C = U+005C : REVERSE SOLIDUS (YEN SIGN)と曖昧な定義になっている。

CP932のUnicodeの変換表
ttp://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT
では、0x5C 0x005C #REVERSE SOLIDUSと定義。

どう表示されるかにかかわらずCP932では常に0x5cをREVERSE SOLIDUSとして扱う、でいいはず。

790 デフォルトの名無しさん 投稿日:2006/01/26(木) 22:39:13

JISのC言語の規格を読んだことが無いので786が本当だと仮定すると、

X0201で書かれたJIS規格C言語のプログラムをX0201以外に変換する
ときには、円記号をバックスラッシュに変更しなければならない。
つまり、単純な文字コードの変換では済まず、C言語のプログラムに
特化した変換処理が必要になる。そういうゴタゴタを避ける為、
ANSIやISOは逆スラッシュと円記号の混同（欧州大陸ではアクセント
付き英字と括弧類の混同）を許していない。

ところで、ANSI準拠やISO準拠ではなくて、JIS準拠のコンパイラーって
世間に存在するのかな。

791 デフォルトの名無しさん [sage] 投稿日:2006/01/27(金) 04:26:01

JIS X 3010 解説より

JIS X 0201で規定する文字集合の中には、プログラム言語Cの基本文字集合の要素\と~
は, 含まれていないが, この規格(JIS X 3010)では, 国際一致規格の趣旨に沿って, 元の
国際規格どおりの(\と~を含む)文字集合を採用した。ただし, ASCIIでの\と~
は, それぞれ, JIS X 0201 では, ¥(円記号)と‾(オーバライン)に対応しており,
原始プログラム中で, \と~の代替表記として¥と‾を使用して混乱が生じる
おそれはない。したがって, 処理系が, 符号化文字集合として JIS X 0201 を採用している場合は,
この規格の中の\と~をそれぞれ¥と‾に置き換えて仕様を解釈しても,
実用上は, 問題ない。ただし, ¥と‾を使って記述されたプログラムは, 規格厳密合致
プログラムではない。

>>790
ISO規格合致の処理系は JIS X 0201 で\を使って書かれたプログラムを処理
できるので「ISO準拠でなくて、JIS準拠のコンパイラー」というのは意味がない。

792 デフォルトの名無しさん [sage] 投稿日:2006/01/27(金) 07:52:51

>>791
> JIS X 0201 で\を使って書かれた

書けへんやん

793 デフォルトの名無しさん [sage] 投稿日:2006/01/27(金) 17:40:59

>>792
「JIS X 0201で」は「処理できる」にかかってるんじゃねえの。

794 デフォルトの名無しさん 投稿日:2006/01/27(金) 20:21:23

795 デフォルトの名無しさん 投稿日:2006/01/27(金) 20:26:44

ちなみに、フォントをBatangやGulimにするとW横線になります。

796 デフォルトの名無しさん 投稿日:2006/01/27(金) 20:41:59

>>791

つまり、JISのCは現実を公式に追認したということになるが、
本音はともかく、建前としては拙いのではなかろうか。
真面目にロケールを見てソース文字集合を判断するコンパイラーは
使えないかもね。

797 デフォルトの名無しさん [sage] 投稿日:2006/01/27(金) 21:09:46

>>796
いや問題の記述はUnicodeなんて影も形もなかったC89からありますから
単にISO 646シリーズのことしか想定してないだけ

798 デフォルトの名無しさん [sage] 投稿日:2006/01/27(金) 21:30:49

>>796
> 規格厳密合致プログラム

ってわざわざ"strictly"付けてるけど、
"conforming program"でもないんじゃないの?
¥や‾なprogramは。

799 デフォルトの名無しさん 投稿日:2006/01/27(金) 22:18:48

昔は printf ("暴\風雨警報");　なんぞと書いたりしましたね。
「暴」の第2バイトが5Cなのですが、最初、これには完全にはまった。

そういえば DOS 2.10 の時代に「蜃気楼」というファイル名を使って
ファイルが消えてしまったこともありのした。先頭バイトE5が削除された
ファイルの印だったりするもので。今となっては遠い昔の語りぐさ。

800 デフォルトの名無しさん [sage] 投稿日:2006/01/27(金) 22:36:33

>>799
FATは今でも生き残ってるわけだが
削除ファイルの表し方は変わったんだっけ?

801 デフォルトの名無しさん [sage] 投稿日:2006/01/27(金) 22:43:21

ファイル名の方をいじって保存するんじゃなかったか

802 >>798 [sage] 投稿日:2006/01/27(金) 22:44:00

あれ? >>796→>>791ね。
まあ「解説」だからアレなのかな。

803 デフォルトの名無しさん 投稿日:2006/01/27(金) 22:55:19

javaで文字列をアスキーコードへ変換方法教えて下さい

804 デフォルトの名無しさん [sage] 投稿日:2006/01/28(土) 00:28:22

ほんとうにASCIIでいいのか？
実はCP932とかに変換したいんじゃないのか？

805 デフォルトの名無しさん [sage] 投稿日:2006/01/28(土) 00:51:45

>>799
蜃気楼ﾜﾛｽ

先頭がE5のファイル名はディスク上では05として保存される。
で、LFNを使うと5番目のエントリは最初の一文字が05になったりして、またややこしい。

806 デフォルトの名無しさん [sage] 投稿日:2006/01/28(土) 02:37:12

>>805
言われてようやく思い出した
ﾃﾗﾅﾂｶｼｽ

807 デフォルトの名無しさん 投稿日:2006/01/29(日) 23:40:41

ってか日本の公用語を英語にしちゃえばいいんじゃない?

808 デフォルトの名無しさん [sage] 投稿日:2006/01/29(日) 23:46:25

アメリカの州の一つにすればいいよね。実質そうなんだし。

809 デフォルトの名無しさん [sage] 投稿日:2006/01/29(日) 23:49:11

>>807-808
日本語の中の人に謝れ！

810 デフォルトの名無しさん 投稿日:2006/01/30(月) 00:02:36

>>808

んなことしたら、アメリカの首都が日本になってしまうぞ。なんたって、
GDPの1/3近くが集中しているのだからな。

811 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 01:46:06

日本自体はカリフォルニアやニューヨーク並かそれ以上の有力州になるが、
英語の下手な元日本人は二等国民扱いになるぞ、それ。
……十年もすれば全米でもっとも英語のスコアの高い州になりそうな気もするが。

812 デフォルトの名無しさん 投稿日:2006/01/30(月) 02:14:17

>>803
String str = "abc";
byte[] ascii = str.getBytes("US-ASCII");

813 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 15:59:07

GDP で首都が決まるかよ。Ex. アメリカの都市を見よ

スコアは高くてもしゃべれない、ということになりそう…

814 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 16:12:53

オーストラリアなんて当時メルボルンとシドニーが首都をめぐって揉めに揉めた末に
その中間にあるキャンベラが首都になったという経緯があるくらいだしな

815 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 16:14:50

printf("わが国の2005年度のGDPがnになると仮定します。\n");

816 org [sage] 投稿日:2006/01/30(月) 16:16:20

printf("わが国の2005年度のGDPが&#yen;nになると仮定します。\n");

817 org [sae] 投稿日:2006/01/30(月) 16:16:54

ドロンするとします

818 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 16:18:20

ハワイ

819 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 16:25:09

まぁもし仮になるにしてもたぶんグアムと同じ扱いってことになるんじゃないか？
もし選挙権ありだったら日本は票全体の1/3くらいを握ることになるからすごく優遇されるぞ

820 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 16:38:17

>>819
アメリカの選挙、特に大統領選の方式知ってる?

821 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 17:34:48

日本はアメリカに常に YES なんだし選挙権いらないんじゃない？

822 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 17:57:12

スレタイ的にはUnicode追従という事でよろしいですね。

823 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 18:14:33

>>820
大統領選なら推薦人120人くらいになるんじゃない？ものすごく大きいと思うが。
まぁそうなるからもしアメリカに入るになっても選挙権はつけないとなるんだろうと言ってる。
そもそもアメリカに入るという話自体ありえないんだけどな。

824 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 18:16:36

もう属国だからね。

825 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 18:20:52

そんなに属国がいやならまずは核武装とエネルギー資源の確保をしないとなぁ・・・
あと食料自給率もどうにかしないと

826 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 18:24:00

自民党が政権を持つ限りアメリカ追随のまま

827 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 18:27:00

民主党になってもその点はほぼ同じだと思われ

828 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 19:30:19

民主党の歴史を考えればな。つまり属国のまま。

829 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 20:18:18

アメリカの属国が嫌だという人間の大半は中国の属国にしたい奴か、鎖国したい奴のどっちか

830 デフォルトの名無しさん 投稿日:2006/01/30(月) 20:38:10

自民党で括りなさんな。田中一族だって自民党だよ。

831 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 22:08:05

戦争に全面的に協力して街壊してから
食料衣服もっていく日本の政治家達見てると
ちゃんと義務教育とか終えたのか心配になっちゃうよね

靖国に感情的な奴もぐるだろうか、
今って太平洋戦争の時よりもあくどいように感じる
俺は零戦で突っ込む！誇りをもて！

832 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 22:10:24

お願いだからスレタイを見てください。

833 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 22:29:15

世界征服して文字コードを強制統一スレが何か？

834 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 22:32:18

そりゃ中国とかモンゴルとかじゃね?
中国語は句読点が真中に来るのがどうも慣れない。なんだありゃ。

835 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 22:33:27

>833
まずは国内の統一からどーぞ

836 デフォルトの名無しさん 投稿日:2006/01/30(月) 22:46:06

句読点を真中に打つのは台湾だけではありませんか。

837 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 23:22:49

各国毎に文字コードを統一して、
それを UTF-64 に含めよう。

838 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 23:24:45

UCS64じゃなくて、UTF-64なんだ。

839 デフォルトの名無しさん [sage] 投稿日:2006/01/30(月) 23:41:51

そうやってちまちま 16→32→64 てな流れでやるから
あ、やっぱり足りね！とかってことになんだよ！
思い切っていっきに1024ぐらいまでいっとけ、な？

840 デフォルトの名無しさん 投稿日:2006/01/30(月) 23:42:40

UTF64か。全ての人に1群（256面）づつ割り当てて自由に使わせても
1000年くらいは持つだろうな。足りなくなる前はUTF128とUTF256を
標準化すれば銀河の寿命が尽きるまで安泰というわけだ。

841 デフォルトの名無しさん [sage] 投稿日:2006/01/31(火) 00:04:25

せっかく自主憲法制定しても、UTF-8で符号化ですか?
TRONコー(ry

842 デフォルトの名無しさん [sage] 投稿日:2006/01/31(火) 00:06:00

>840
銀河評議会辺りから「んなローカルな文字コード使ってんじゃねーよ田舎モン」言われそうだｗ

843 デフォルトの名無しさん 投稿日:2006/01/31(火) 03:13:28

UTF4096
UTF16384
UTF65536
UTF131072
UTF1M
UTF1G
UTF1T

もはやここまできたら文字の図形そのまんま転送してるのと同じ。

844 デフォルトの名無しさん [sage] 投稿日:2006/01/31(火) 07:37:28

>>843
マジメな話、将来的には全部画像ファイルになるかもな。
各種記憶メディアの容量は馬鹿でかくなり続けてるし、
CP'Uに処理速度もアホみたいに速くなってればOCR処理も一瞬で終わるし、
画像ファイルならフォントがなくて表示できないだとか、
ロケールの違いでうまく表示・処理できないなんて類のことから解放されるし。

845 デフォルトの名無しさん [sage] 投稿日:2006/01/31(火) 07:57:49

OCRした結果は何コードにするの？

846 デフォルトの名無しさん [sage] 投稿日:2006/01/31(火) 08:09:04

>>845
UTF-1024

847 デフォルトの名無しさん [sage] 投稿日:2006/01/31(火) 15:16:28

コードなんて内部でも必要とせず、
常に画像データで持ち比較の場合は画像類似度で判定。

848 デフォルトの名無しさん 投稿日:2006/01/31(火) 16:33:59

文字コードに「日ペンの美子ちゃん」が追加される時代がくる

849 デフォルトの名無しさん [sage] 投稿日:2006/01/31(火) 23:59:52

そんな英語圏の連中にとってオーバースペックにもほどがある代物は
一部の日本人の妄想の中にしか存在しません

850 デフォルトの名無しさん [sage] 投稿日:2006/02/01(水) 00:09:51

表示と印刷に限ればPDFがすでに実現してる

851 デフォルトの名無しさん [sage] 投稿日:2006/02/01(水) 00:13:11

検索も結構いけてる > PDF

852 デフォルトの名無しさん [sage] 投稿日:2006/02/01(水) 00:48:24

STLPort 5.0.1をWindowsでビルドしたんだけど、UnitTestで3/329が通らない。
見てみると、std::use_facet<>のテストでのassert。

調べてみると、どうも「CP1252(Latin-1)な言語環境じゃなきゃ通らない」テストになってた。
しかも、use_facet<>の実装も間違ってる始末。

ポンド記号とかをGetLocaleInfoA()で取得した後、MultiByteToWideChar(CP_ACP)→WideCharToMultiByte(CP1252)
なんて処理を行ってる。

これだから外人は…

853 デフォルトの名無しさん [sage] 投稿日:2006/02/01(水) 00:59:43

>>852
微妙にスレ違いな気がするぽ
もっと適切なスレに逝け

854 デフォルトの名無しさん [sage] 投稿日:2006/02/01(水) 01:38:25

ここでいいと思う。

855 デフォルトの名無しさん [どう考えてもSTLスレのほうが適切・・・] 投稿日:2006/02/01(水) 15:03:31

いや、やっぱりよくない

856 デフォルトの名無しさん [sage] 投稿日:2006/02/01(水) 15:23:10

まあいいじゃねえかよ。
言いたかったのは「これだから外人は」ってことなんだろうから。

857 デフォルトの名無しさん 投稿日:2006/02/04(土) 10:44:45

>>849
いや英語圏というか文字の種類が数十文字の言語にとっては
現時点でももうオーバースペックだよ。

858 デフォルトの名無しさん [sage] 投稿日:2006/02/04(土) 15:09:32

一般人にとってはそうだろうね。
けどUnicodeなんかはベンダー主導の部分も大きくて、
英語圏のソフトウェアベンダーに取っては必要不可欠。
ドメスティックな奴は彼らにとってはわけわからんし。

859 デフォルトの名無しさん [sage] 投稿日:2006/02/04(土) 16:03:22

英語圏の人間でも各種記号が増えるのは嬉しいんじゃないの。

860 デフォルトの名無しさん [sage] 投稿日:2006/02/04(土) 16:29:34

¢ € £

861 デフォルトの名無しさん 投稿日:2006/02/04(土) 19:16:41

ユニコードってのは、最初はCJKなんて含んでいなかったんですよ。
8859シリーズが増えすぎて手に負えなくなって、しかたが無いから
16ビットにしてしまえと。まあ、確かに、欧米だけならBMPだけで
間に合っていただろうけど。

862 デフォルトの名無しさん 投稿日:2006/02/08(水) 03:38:36

bitmap にしてしまうと bmpstrcmp() とかいうイメージの比較関数を
C言語に標準で用意する必要性が・・・。(リターン値は double で
何パーセント似ているかが返される)。

863 デフォルトの名無しさん [sage] 投稿日:2006/02/08(水) 04:28:05

BMPってBasic Multilingual Planeのことだろ･･･

864 デフォルトの名無しさん [sage] 投稿日:2006/02/08(水) 06:39:21

ハハ。以前打ち合わせ2時間やった帰り際に>>861みたいなことを
お客さんに言われたことがあるよ。どうしようかと思ったｗ

865 デフォルトの名無しさん [sage] 投稿日:2006/02/08(水) 22:52:42

>>862
フィッシングで釣り放題の予感

866 デフォルトの名無しさん [sage] 投稿日:2006/02/08(水) 23:02:44

> C言語に標準で
「言語情報や字体情報はリッチテキストで表せばいい」って
絵空事を言ってる人たちが意図的に触れない点ですな。
char→wchar_tすら遅々として進まないのに
プログラミング言語の標準ライブラリとかOSのAPIがすべて文字列の代わりに
XMLのマークアップとか受け取れるようになるなんて本気で思ってる人
どれくらいいるんでしょうかね。
ただでさえ
> 英語圏の連中にとってオーバースペックにもほどがある
のに。

867 デフォルトの名無しさん [sage] 投稿日:2006/02/09(木) 10:03:21

欧米で日本語流行らないかな
漢字をおしゃれだと思ってる欧米人も少なくは無いんだろうが
身体に亀仙人とか彫っちゃう感覚なんだもんな
意味含めて1ヶ月流行らんかな

868 デフォルトの名無しさん 投稿日:2006/02/11(土) 02:51:33

日本語をローマ字で書く程度ならそんなに苦労はしないかも知れないが、
実際には平仮名カタカナ漢字と3種類の文字を覚え、更に漢字の音読み
訓読みを覚えなければならないので全部使えるようになるまでは英語圏の
やつらにはかなり大変なんじゃねえの?

869 デフォルトの名無しさん [sage] 投稿日:2006/02/11(土) 02:54:37

日本はまだマシなものだ

870 デフォルトの名無しさん 投稿日:2006/02/11(土) 03:22:08

そうか? 要するに言葉を覚えるより文字を覚えるのが大変ということだが。
まあ、中国語とかも大変そうだが。

871 デフォルトの名無しさん [sage] 投稿日:2006/02/11(土) 07:57:24

日本語を流暢に話す欧米人はそこそこみかけるが（ＴＶでね）
仮名漢字交じりの文章をスラスラ書く欧米人は見たことないなぁ。

872 デフォルトの名無しさん [sage] 投稿日:2006/02/11(土) 09:53:17

>>871
それがいるんだ。

873 デフォルトの名無しさん [sage] 投稿日:2006/02/11(土) 11:56:00

中には日本好きが高じすぎて、当の日本人より詳しいのも。
希出漢字の書き順まで完璧。知識階級に多い。

874 デフォルトの名無しさん [sage] 投稿日:2006/02/11(土) 12:57:05

夏期休暇でアメリカに行った際の出来事。
ＬＡで信号待ちをしていると気の良さそうな２人組のお兄さんが、
「おまえは日本人か？」と気さくに聞いてきました。
「そうだ」と答えると、「漢字のタトゥー（刺青）を彫ったんだけど、
どういう意味か教えろよ」と言われ、差し出された腕を見ると
『武蔵』と彫ってありました。
「日本で最も有名な剣豪だよ」と伝えると彼は満面の笑みを浮かべていました。
続いてもう一人が腕を差し出すとそこには『朝鮮』と大きく彫ってありました。
「KOREAだよ」と教えてあげた後の彼の悲しそうな顔が忘れられません。

875 デフォルトの名無しさん [sage] 投稿日:2006/02/11(土) 13:25:47

コピペ乙

876 デフォルトの名無しさん [sage] 投稿日:2006/02/11(土) 13:32:20

全米が泣いた

877 デフォルトの名無しさん [sage] 投稿日:2006/02/11(土) 14:19:51

「K-1ファイターだよ」と教えてあげた後の彼の悲しそうな顔が忘れられません。

878 デフォルトの名無しさん [sage] 投稿日:2006/02/11(土) 16:41:39

WinFX Runtime ComponentのJan CTPを入れて、Loose XAMLで
>>125みたいな指定が実際に可能である(エラーにならない)ことを確認した。
ただしXPではUniscribeが古いままなせいか、それとも単にまだ実装されていないのか、
メイリオや小塚明朝を指定しても実際に字形の切り替えは反映されなかった。

879 デフォルトの名無しさん 投稿日:2006/02/11(土) 22:10:48

はやっているのは日本語ではなくて中国語だという説も。

中国は簡体字だろうって？

台湾も香港も、大陸系でも欧米に往来するような連中は教養として
繁体字を書けますので。

880 デフォルトの名無しさん [sage] 投稿日:2006/02/13(月) 00:36:29

正体字か常用漢字体かは見分けられるだろう

881 デフォルトの名無しさん [sage] 投稿日:2006/02/13(月) 22:33:39

>>879
海外の華僑は繁体字を使ってるんでしょ?

882 デフォルトの名無しさん 投稿日:2006/02/13(月) 23:32:35

例えば、円のような字があれば紛れもなく日本語だろうけど、常用漢字体と
いっても、それまで草の根で使われてきた字を公認したものもあるので、
単純には見分けられない。台湾香港の手書きの繁体字が日本の正字体
（康煕字典体）と一致しているわけでもない。活字は示偏で手書きはネ偏
とかいうのも普通です。

883 デフォルトの名無しさん [sage] 投稿日:2006/02/17(金) 20:16:11

UTS #37の承認キター
http://www.unicode.org/reports/tr37/
で、AJ1-6の登録マダー? (AAry

884 デフォルトの名無しさん [sage] 投稿日:2006/02/21(火) 05:26:49

ietf-charsetsのメーリングリストがいつ行っても落ちてるんですけど
今さら新しいcharsetを登録したいやつなんかいないだろって感じですか?
http://mail.apps.ietf.org/ietf/charsets/threads.html

885 デフォルトの名無しさん [sage] 投稿日:2006/02/21(火) 09:09:41

前に揉めたから日本人ははねてるんだろうな(w

886 デフォルトの名無しさん [sage] 投稿日:2006/02/21(火) 23:48:33

ISO-2022-JP-3を事実上葬った太田センセイですか?
今となっては結果的にGJだった気もするが(w

887 デフォルトの名無しさん [sage] 投稿日:2006/02/22(水) 15:31:18

So?

888 ハーピィ [sage] 投稿日:2006/02/24(金) 11:51:00

E・∇・ﾖﾉｼ　＜888ｹﾞｯﾄ♫

889 デフォルトの名無しさん 投稿日:2006/02/26(日) 03:04:47

javaでISO-2022-JPからUTF-8への変換は出来るの？

890 デフォルトの名無しさん [sage] 投稿日:2006/02/26(日) 03:28:05

Java API でって事か?

891 デフォルトの名無しさん 投稿日:2006/02/26(日) 07:22:44

>>889
できる。

892 デフォルトの名無しさん [sage] 投稿日:2006/03/06(月) 06:49:17

ISO-2022-JP-2でG2にISO-8859-7が指示できるのは何のため?

893 デフォルトの名無しさん [sage] 投稿日:2006/03/06(月) 15:02:36

ギリシャ文字使うのにX0208使いたくなかったから。

894 デフォルトの名無しさん [sage] 投稿日:2006/03/06(月) 23:15:19

>>893
JIS X 0201カナ（´・ω・）カワイソス
つーかマジでダブルスタンダードだとは誰も思わなかったのかね入れた奴らは

895 デフォルトの名無しさん [sage] 投稿日:2006/03/07(火) 00:15:34

むしろISO-8859-5あたりが指示できない方が問題じゃないかと。

896 デフォルトの名無しさん [sage] 投稿日:2006/03/07(火) 05:11:55

ロシヤ文字はkoi8のほうが標準だったからね。

897 デフォルトの名無しさん [sage] 投稿日:2006/03/09(木) 06:46:39

結局ISO-2022で世界統一しようというのも日本人だけの妄想ってことだな

898 デフォルトの名無しさん [sage] 投稿日:2006/03/09(木) 12:06:46

X11はcompound textでやっていたけどね。
ISO-2022-JP-2みたいな文字(集合)利用制限付きはうまくいかなかった。

なんでもぶっ込み型しか利用されないのよね。
ctextにしてもunicodeにしても。

899 デフォルトの名無しさん [sage] 投稿日:2006/03/09(木) 12:55:15

ISO-2022-INTがRFCになってたらうまくいってたんだろうか

900 デフォルトの名無しさん 投稿日:2006/03/09(木) 13:49:16

　　　 _ 　∩
　　< ｀∀´>彡　KPS9566!KPS9566!
　　(　 ⊂彡
　　|　　　|　
　　し ⌒Ｊ

901 デフォルトの名無しさん [sage] 投稿日:2006/03/09(木) 15:34:39

DNSやURL w/UTF-8で、
似た文字を一つにUNIFYして正規化する、とかいうのどうなったの?

902 デフォルトの名無しさん [sage] 投稿日:2006/03/09(木) 20:06:02

よくわからんがとりあえずnameprepでぐぐってみれ

903 デフォルトの名無しさん [sage] 投稿日:2006/03/09(木) 23:41:59

もとはといえば最初に常用漢字とＪＩＳが違うという縦割り行政丸出しの時点で
もうだめだったな・・・

904 デフォルトの名無しさん [sage] 投稿日:2006/03/10(金) 00:44:49

俺的には昔より最近の「印刷標準字体」にたまげた

905 野村 [sage] 投稿日:2006/03/10(金) 06:54:06

>>903
その差を埋めようとしたのが83JISじゃないか!
何であんなに叩かれるんだ!

906 デフォルトの名無しさん [sage] 投稿日:2006/03/10(金) 07:52:03

安易だからさ。

907 デフォルトの名無しさん 投稿日:2006/03/10(金) 17:46:20

>>905

非互換の変更で、朝日文字を採用したからでしょ。

908 たちざき 投稿日:2006/03/13(月) 13:29:45

Unicode FA11 は崎の異体字、大→立です。いわゆる「たちざき」
この JIS コードは 7975 だそうです。
たしかに手元のブラウザで EUC-JP F9F5 で表示できます。
しかし JIS X 0213-2004 の1面89区85点を見てもみあたりません。
http://www.itscj.ipsj.or.jp/ISO-IR/233.pdf
どこを見れば「たちざき」が載っているのでしょうか？

909 デフォルトの名無しさん [sage] 投稿日:2006/03/13(月) 13:39:49

1-47-82

910 たちざき 投稿日:2006/03/13(月) 13:46:25

>>909 ありがとうございました、無事見つかりました。
今まで区点コードとJISコードは 0x2020 の違いだけだと
思い込んでいたのですが、そうではないのでしょうか？

JISコードと区点コードの間にも Unicode との
マッピングのようなマッピングを持たなければならないのでしょうか？

911 デフォルトの名無しさん [sage] 投稿日:2006/03/13(月) 14:07:04

>>908
> この JIS コードは 7975 だそうです。

それはNEC選定IBM拡張文字としてのコードであって、正式な（？）JISコードじゃないから。

912 たちざき 投稿日:2006/03/13(月) 14:07:41

いま、下の変換表を見てみましたところ、
http://examples.oreilly.de/english_examples/nutshell/cjkv/adobe/jisx0213-all.txt
EUC-JP F9F5 = JIS 7975 = 区点 1-89-85 = Unicode U+7CBC のようです。
U+7CBC は CJK Unified Idiograph で「憐」のつくりをへんに持ち、
「喩」の右下の二本の並行曲線をへんに持つ、変わった漢字です。

手元のブラウザで EUC-JP F9F5 は「たちざき」に見えているのですが。

913 たちざき 投稿日:2006/03/13(月) 14:11:06

>>911 え？そうだったんですか。丸付き数字とかだけかと思ってました。
ということは、EUC-JP F9F5 で「たちざき」が見えているこのコードは、
「えせ」EUC-JP ってことでしょうか？

914 デフォルトの名無しさん [sage] 投稿日:2006/03/13(月) 14:13:46

>>913
「えせ」ってのは響きが宜しくない。

「独自拡張された」EUC-JP（JIS X 0208ベース）ぐらいが適当か。

915 デフォルトの名無しさん [sage] 投稿日:2006/03/13(月) 14:14:25

1-89-85が﨑な文字コードと1-47-82が﨑な文字コードは別の物だよ。

916 たちざき [sage] 投稿日:2006/03/13(月) 16:16:43

>>914 >>915 わかりました。DBの統合に際して
気をつけなければと思って調査しているのですが、
どうやらJIS X 0208 + 拡張文字ベースの EUC-JP
と JIS X 0213 ベースの EUC-JP が混在しているようです。
マップを細かく切り替えながら乗り切ることにします。

917 デフォルトの名無しさん [sage] 投稿日:2006/03/13(月) 19:59:11

うわ、eucJP-openとEUC-JISX0213が混ざっているのですか・・・がんばってください・・・。

EUC-JISX0213はJIS X 0213を見ればいいとして、
eucJP-open（独自拡張されたEUC-JP）は、
http://www2d.biglobe.ne.jp/~msyk/charcode/cp932/eucJP-ms.html
やここからいけるリンクの先をご覧になるとよろしいかと。

918 デフォルトの名無しさん [sage] 投稿日:2006/03/14(火) 00:11:27

ところでUnicode 5.0(ベータ)でUTF-8最後の2byte領域につっこまれたNKoってどこの文字か知ってる人います？

919 デフォルトの名無しさん [sage] 投稿日:2006/03/14(火) 01:00:14

>>913
むしろ丸付き数字はNEC拡張とJIS X 0213で互換性がある。

920 デフォルトの名無しさん [sage] 投稿日:2006/03/14(火) 08:02:42

http://std.dkuug.dk/jtc1/sc2/WG2/docs/n2765.pdf
>Manden (or Manding) people live mainly in West Africa
>literary dialect commonly known as Kangbe ‘the clear language’, and also known as N’Ko.
これかなー

921 デフォルトの名無しさん [sage] 投稿日:2006/03/14(火) 09:43:04

Vai script はまだなのか……

922 デフォルトの名無しさん 投稿日:2006/03/14(火) 22:25:35

UTF-9を使うとLaten-1が1バイト、CJKは2バイトに収まるというが

923 デフォルトの名無しさん [sage] 投稿日:2006/03/14(火) 23:51:28

>やるならヒキヅナの正しい文字を追加してもらいたい

化石レス、スマソ。それって、
http://hp.vector.co.jp/authors/VA000964/hikiduna.htm
のこと？だいたい、あそこで言ってる事って正しいの？

924 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 00:11:21

>>922
バイトには違いないがオクテットじゃなくてノネット(9ビットバイト)だからあまり実用的
じゃない。つーかJoke RFCだし。

UTF-9ってRFC 4042に載ったもの以外に、こんなのもあったなあ。
http://www3.ietf.org/proceedings/99jul/I-D/draft-abela-utf9-00.txt

925 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 00:12:06

>>923
それこそ自分の目で確かめろだ

926 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 00:28:15

>925
あのページって、南堂某みたいなトンデモだと思ってた。

927 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 00:55:49

南堂某と一緒くたにしたらあまりに失礼だ。

928 デフォルトの名無しさん [age] 投稿日:2006/03/15(水) 16:23:55

Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
> 　主要な OSS (libiconv、glibc、Perl、Ruby、Python、PHP、ostgreSQL、
> MySQL、nkf など) の各ソフトウェアで、Microsoft標準キャラクタセット
> をシフト JIS符号化方式、日本語EUC符号化方式、7ビットJISコード符号化
> 方式の各々の間で相互変換できるようにする事を目的とします。

929 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 20:30:46

Windows-31JはともかくISO-2022-JP-MSは混乱を新たに追加するだけだと
思うがなあ…。

930 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 20:33:04

>>928
OSCや、
http://www.ospn.jp/osc2006/modules/eguide/index.php?begin=1142521200&end=1142607600&msg=1
YAPCで発表もなさいますね。
http://tokyo.yapcasia.org/blog/ja/sessions.html

931 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 21:42:30

そうだ！南堂某にあやまれ。

932 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 22:07:45

ISO-2022-JP-MSって、変換に問題が生じるから新しく作るってことか？
なんか考え方がunicode的というか傲慢というか。
実装だけでなくガイドラインもとか言ってるから自分たちの提唱する
方式が支配的になればハッピーというつもりだろうが、
それなら最初の問題の立て方の段階から合意を形成する必要があるよね。

933 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 22:46:24

>>932
私の代わりにISO-2022-JP-MSが本当に必要なのかMLで議論してきてください（ぉ

まぁ、この手のプロジェクトの必要性自体は認めますけど。
Perl/EncodeでEUC-JP使っていて、U+301C周りではまったことあるし。

934 デフォルトの名無しさん [sage] 投稿日:2006/03/15(水) 23:50:07

辛辣ですな(w
http://slashdot.jp/~alp/journal/348517
http://slashdot.jp/~witch/journal/348491
http://slashdot.jp/~oku/journal/348499
> Unicode.org の変換表は、4.0.1 で規格に取り込むかたちで完全に策定されています。
これ本当? OBSOLETEになったEASTASIAの変換表も更新されて
取り込まれたりしてるの?
>>933
面倒なので勝手にやってもらって勝手にコケてもらうことにします。
自分の関わってる某OSSプロダクトでISO-2022-JP-MSをサポートしろとか言われたら
全力で拒否するけど。

935 デフォルトの名無しさん [sage] 投稿日:2006/03/16(木) 00:41:50

ISO-2022-JP-MS はともかく、CP932/CP1932/eucJP-ms についてはこけることはないでしょ。
だって、もう八割方終わってるし。

936 デフォルトの名無しさん [sage] 投稿日:2006/03/16(木) 07:20:13

コケル、ってのは広まらない、ってことでそ。

937 デフォルトの名無しさん [sage] 投稿日:2006/03/16(木) 07:28:04

> CP1932
CP51932?

938 デフォルトの名無しさん [sage] 投稿日:2006/03/16(木) 09:00:38

>>921
日本人でこれ使いたい人がいるとは・・・

http://lucia.itscj.ipsj.or.jp/itscj/servlets/ScmDoc20

を見ると、Amendment 3にvai が入ってるね。まだDAMレベルの投票だから、あと
１年半待て。

939 デフォルトの名無しさん [sage] 投稿日:2006/03/16(木) 09:09:00

iso-2022-jp-ms なんてデファクトでしょ。
Outlook Expressで、何の躊躇いもなく「①」とか送ってくる輩がゴマンといるし、
gooだのyahooだののwebメールで textarea に入れた「①」もメールでは同様に
エンコードされる。

ただＵnicodeと関わらない普通のOSSはサポートなんて考えなくていいんじゃないかな。
iso-2022のコードを、unicodeに変換するルーチンはサポートして欲しい気もするけど。

いちいちメールに半角カナ中点とか①とか使う連中に「使うな」と注意してるとこっちが
木印扱いされかねない昨今だからなぁ。

940 938 [sage] 投稿日:2006/03/16(木) 09:16:03

すみません、ここはservletのURLでしたね。
http://std.dkuug.dk/jtc1/sc2/
このリンクから“REGISTERS & SEARCH”をクリックして、
vaiで検索すると、n3817が出てきます。

941 デフォルトの名無しさん [sage] 投稿日:2006/03/16(木) 09:24:28

どうしてISO-2022-JP系である必要があるのか分からない。

変換テーブルの非互換を増やさないため、
典型的な変換テーブルを持った文字コードを増やすというのは分かるけど、
文字集合が違うとあらたに文字コードが増えただけなのでは?

942 デフォルトの名無しさん [sage] 投稿日:2006/03/16(木) 10:23:08

>>939
iso-2022-jp-ms と cp5022x は違うよ。
おまけに cp5022x は WideCharToMultiByte と ConvertINetUnicodeToMultiByte で同じじゃなかったりする。
WideCharToMultiByte は補助漢字使えるけど、ConvertINetUnicodeToMultiByte は使えないとか。

iso-2022-jp-ms と eucJP-ms も補助漢字サポートする/しないで
一貫性なかったりしてなんだかなー、な感じがある。

943 デフォルトの名無しさん [sage] 投稿日:2006/03/16(木) 10:37:06

>>936
本家libiconvに取り込まれれば、それだけで実装としては広まるよね。
まぁ、ユーザが知らなければ駄目なわけですが。

>>937
すみません、CP51932ですね

>>939
発想がiconv的なのだと思います。（Unicode的という声もログにありましたけど）
iconvは定義外の文字を投げるとエラーを出す実装が多いので、
いわゆる機種依存文字は変換できない（と思います）。

変換するためには、
* "iso-2022-jp" でいわゆる機種依存文字も許容するようにする
* いわゆる機種依存文字を許容する別の名前を作る
の二種類があり、後者を取った、と。

iconvのようにエラーを出さないルーズな実装では、
iso-2022-jpのaliasにiso-2022-jp-msをつくるだけ、の場合もあるかもしれません。

nkf とかだと、いわゆる機種依存文字を許容するかどうかはオプションで指定などと逃げられますが、
iconvだとそうもいきませんからね。

944 デフォルトの名無しさん [sage] 投稿日:2006/03/16(木) 19:38:19

俺は必要悪だと思て消極的に応援してる。

945 デフォルトの名無しさん [sage] 投稿日:2006/03/17(金) 22:28:24

>>930
今日のOSCの報告きぼんぬ。

946 デフォルトの名無しさん [sage] 投稿日:2006/03/18(土) 16:57:01

すでに>>942が指摘してるがISO-2022-JP-MSの問題はCP50220/50221と互換性が
「ない」点。(「いわゆる機種依存文字」に限れば交換できそうだけど)。
そのくせMSの方言と互換性があるかのような誤解を招くネーミングもひどい

http://lists.sourceforge.jp/mailman/archives/mutt-j-users/2005-October/000082.html
> ISO-2022-JP-MS は、Windows Codepage 50220, 50221 と互換性がありますので、
なんてほざいてるが

http://www2d.biglobe.ne.jp/~msyk/cgi-bin/charcode/bbs.cgi?c=r&n=277
> CP50220/CP50221/CP50222 のいずれかを実装する事も考えた事がありますが、
> ユーザー定義文字をエンコードできないとか、一般的にあまり実態が知られていない
> エンコーディングの為、イマイチだと感じています。
> 仕方が無いので、ISO-2022-JP-MS というものを独自に定義して実装する事を考えています。
どう見ても互換性ありません。本当にありがとうございました。

http://www2d.biglobe.ne.jp/~msyk/cgi-bin/charcode/bbs.cgi?c=r&n=280
> JIS規格だけでは実装するのに情報が不十分で
とか平然と嘘まで吐くし、むしろこいつこそ南堂某の仲間にしてやりたい

947 デフォルトの名無しさん [sage] 投稿日:2006/03/18(土) 17:09:04

> おまけに cp5022x は WideCharToMultiByte と ConvertINetUnicodeToMultiByte
> で同じじゃなかったりする。
ついでにWin9xだと WideCharToMultiByte では使えなくて
ConvertINetUnicodeToMultiByte しかサポートしていないとか。
本来GB18030対応のために用意されたと思われるWin2kのDLL based codepageを
ISO-2022-JP系エンコーディングの実装に流用したんだろうな。

948 http://www.vector.co.jp/soft/win95/util/se072729.html 投稿日:2006/03/18(土) 20:02:01

TextSS　のWindowsXP(Professional)64bit化おながいします

もしくは64bitにネイティブ対応したテキスト置換ソフトありますか？

949 デフォルトの名無しさん [sage] 投稿日:2006/03/18(土) 20:03:41

> ついでにWin9xだと WideCharToMultiByte では使えなくて
それは知らんかった。情報ありがと。

950 デフォルトの名無しさん [sage] 投稿日:2006/03/18(土) 22:57:30

>>946
>ISO-2022-JP-MS は、Windows Codepage 50220, 50221 と互換性がありますので、NEC特殊文字(13区)、
>NEC選定IBM拡張文字 (89区～92区) を正しく扱えるようになっています。

13区と、NEC選定IBM拡張文字が使えるというのがポイントかと。

そうするとiso-2022-jp-cp932とかいう名前だったらOKとか（ｗ

951 デフォルトの名無しさん [sage] 投稿日:2006/03/18(土) 23:37:38

そうじゃなくて、ESC $ ( ? という謎のエスケープが使えることなのでわ？
実際、UDCを使ってOutlookで2022でエンコして送ったらどーなるんだ？

952 デフォルトの名無しさん [sage] 投稿日:2006/03/19(日) 07:33:26

>>951
> そうじゃなくて、ESC $ ( ? という謎のエスケープが使えることなのでわ？
その通り。
そもそもMSに媚びた変換表を使う理由はWindowsとの相互運用のためなのに
Windowsで認識できない独自拡張を含める時点で手段と目的が転倒してる。
eucJP-msは比較的古くからあるし内部エンコーディングとしての用途もあるが
ふつう内部用には使わないステートフルなエンコーディングをわざわざ今さら
発明するのが全く意味不明。

> 実際、UDCを使ってOutlookで2022でエンコして送ったらどーなるんだ？
ISO-2022-JP-MSでぐぐったページのどこかに書かれてたが、
1バイト目が(ISO 2022の用語でいう)C1領域とかにはみ出すらしい。
つまり範囲チェックすらせず機械的にCP932から変換している模様。

953 デフォルトの名無しさん [sage] 投稿日:2006/03/19(日) 07:57:46

ESC $ ( ? はどんな文字集合を扱うんですか?

954 デフォルトの名無しさん [sage] 投稿日:2006/03/19(日) 10:12:15

>>952
>> 実際、UDCを使ってOutlookで2022でエンコして送ったらどーなるんだ？
>ISO-2022-JP-MSでぐぐったページのどこかに書かれてたが、
>1バイト目が(ISO 2022の用語でいう)C1領域とかにはみ出すらしい。
>つまり範囲チェックすらせず機械的にCP932から変換している模様。

それってOutlookの問題っすか？
ESC$(?つーのは
https://sourceforge.jp/docman2/?group_id=2198
をみるとUDC（外字）を交換するための独自拡張みたいっすね。
C1はつかっていないみたいだけど。
iso-2022-jp-udcか（ｗ

955 デフォルトの名無しさん [sage] 投稿日:2006/03/19(日) 21:29:27

>>954
> それってOutlookの問題っすか？
変換APIの問題だな。つーか実際にOutlookで転送を試してみた訳じゃなくて
変換APIの仕様から予想される挙動を書いただけだから。
> C1はつかっていないみたいだけど。
だから互換性がないんだってば。
> iso-2022-jp-udcか（ｗ
つーかそうやって何でもかんでも名前を付けたがる時点で終わってる。
文字コードは変換表ではない
http://web.archive.org/web/20030629173513/http://www.geocities.co.jp/SiliconValley-Oakland/1479/i5.html
まあiconvがパラメータにcharsetの名称しか取れないから
Ideographic Variation Sequencesと同じように「必要悪」なんだけど。
このスレの上の方で出ていたNFCとNFDに別のcharset名を付ける、みたいな

956 デフォルトの名無しさん [sage] 投稿日:2006/03/19(日) 21:59:30

文字コードって次から次へと枠組み壊すヤツが出てくるよな。

957 デフォルトの名無しさん [sage] 投稿日:2006/03/20(月) 08:20:55

野村雅昭とか野村雅昭とか野村雅昭とか？

958 デフォルトの名無しさん [sage] 投稿日:2006/03/20(月) 11:42:13

せめて3つ目の一文字ぐらい伏せてあげて

959 デフォルトの名無しさん [sage] 投稿日:2006/03/20(月) 11:47:54

字形変更と文字入れ換えとか
字形変更と文字入れ換えとか
字形変更と文字入れ換えとか

960 デフォルトの名無しさん [sage] 投稿日:2006/03/20(月) 16:19:36

必要悪と言うか、「文字コード」ってそういうものだと思い始めてきた今日この頃。

> 文字コードは変換表ではない
「文字コード」自体がそもそも多義的だし、MIMEのcharsetとXMLのencoding/charsetは違う。
XMLはUTF-32の世界だから、encodingはUnicodeへの変換表だし。
UCS正規化の世界では、「‘文字コード’は変換表です。」

しかし、試しに実装していて思ったが、ISO-2022-JP-MSって中途半端だな。
ユーザ定義文字をなくすか、補助漢字も入れるかすればいいのに。
名前的にeucJP-msの文字を全部持ててほしいなぁ。

961 デフォルトの名無しさん [sage] 投稿日:2006/03/20(月) 16:49:52

MIMEのcharset、XMLのencodingは、
CCS(Coded Character Set)のことでしょ。

XMLのcharsetはCS(Character Set)のこと。

> 文字コードは変換表ではない

これは、たぶんというか当然、前者のことでしょう。

962 デフォルトの名無しさん [sage] 投稿日:2006/03/21(火) 00:53:23

XML 日本語プロファイルをみると、
http://www.w3.org/TR/japanese-xml/
確かに、XML の "Encoding" は CES であり、charset は
“A charset is a set of rules for mapping from a sequence of octets to a sequence of characters.”
と書かれてて、つまり ACS+CCS+CES なので両者は異なるわけだけど、

4.3.3 Character Encoding in Entities http://www.w3.org/TR/REC-xml/#charencoding
には Encoding を charset 的に扱うことが示唆されている。
ここで、XML の charset と encoding が同一視できる。

次に 2.2 Characters http://www.w3.org/TR/REC-xml/#charsets
をみると、
“A character is an atomic unit of text as specified by ISO/IEC 10646:2000 [ISO/IEC 10646].”
とあり、 XML の文字集合は常に Unicode。
そしたらもう charset とか言いつつもただの Unicode への変換表じゃん。

ってか、ぶっちゃけ XML の話に限れば、両方 XML パーサーが文字コード変換プログラムに渡すパラメータでしょ？と。
str.decode(charset);

ここまで話は XML が UCS 正規化されているのを前提としているので、
MIME charset は変換表では無い、というのなら同意。
まぁ、遅かれ早かれこちらも毒されていくのだろうけど。

963 デフォルトの名無しさん [sage] 投稿日:2006/03/22(水) 01:53:51

>>952
> ISO-2022-JP-MSでぐぐったページのどこかに書かれてたが、
> 1バイト目が(ISO 2022の用語でいう)C1領域とかにはみ出すらしい。
> つまり範囲チェックすらせず機械的にCP932から変換している模様。

それと同じ挙動のencodingを定義しろよ。
iso-2022-jp-ms なんてイラネ。

964 デフォルトの名無しさん [sage] 投稿日:2006/03/22(水) 11:15:56

こわそうなスレのようですが、教えてもらいたくてお寄りしました。

自前のアプリで unicode text も扱えるようにしようと調べているところですが、
unicode で書出すファイルには先頭に BOM を付けるようになっているようですが
これは必須ですか。またまじめな文書には必ず付いているものですか。
それとも、文字コードを見て、判定しないといけないのでしょうか。

965 デフォルトの名無しさん [sage] 投稿日:2006/03/22(水) 12:39:51

>>964
UTF-16ならBOM必須。
つーか、BOMのないものは
UTF-16BEまたはUTF-16LEと明示する必要がある。
UTF-8のシグネチャは、まあ、好きにしてくれ。

966 デフォルトの名無しさん [sage] 投稿日:2006/03/22(水) 14:02:39

>>964
UTF-16(Little Endian) のことを「unicode」って呼んでる？
それだったら、名前を「UTF-16(Little　Endian)」とかにした上で、BOMはつけよう。

UTF-8は「UTF-8(BOM)」と「UTF-8N」に対応しておくのが無難だと思う。

967 デフォルトの名無しさん [sage] 投稿日:2006/03/22(水) 14:43:11

>>966
> 名前を「UTF-16(Little　Endian)」とかにした上で、BOMはつけよう。

「UTF-16（Little Endian）」なんていう紛らわしい表示にすると、
利用者からUTF-16LE（つまりBOMなし）と誤解される予感。
BOMが付いてるなら、単に「UTF-16」でいいやん。

968 964 [sage] 投稿日:2006/03/22(水) 14:49:28

>>965-966 ご親切に有難うございます。
unicode と言っているのは、VC++2005EEで default でコンパイルすると
なってしまう文字コードを想定しています。

しかし「明示する」とか「つける」という意味が初めてで分かりません。
ファイル先頭に 0xFFFE だか 0xFFEF だかをただ付けるだけでは駄目な
のですね。ファイル先頭の様式を並べたサイトとかあると助かりますが
ぐぐって見ます。

969 デフォルトの名無しさん [sage] 投稿日:2006/03/22(水) 15:23:20

>>968
Unicode本で、32、47、79-81、400-402ページあたりを参照。
お望みの表は80ページのやつかな。

http://www.unicode.org/versions/Unicode4.1.0/
http://www.unicode.org/versions/Unicode4.0.0/ch02.pdf
http://www.unicode.org/versions/Unicode4.0.0/ch03.pdf
http://www.unicode.org/versions/Unicode4.0.0/ch15.pdf

970 デフォルトの名無しさん [sage] 投稿日:2006/03/22(水) 17:54:17

>>968
> unicode と言っているのは、VC++2005EEで default でコンパイルすると
> なってしまう文字コードを想定しています。
それだったら VisualStudioのスレで聞くか、
Microsoft のサポートに直接聞いた方が早いような気もする。

コンパイル結果の文字コードってのと、
実行時に特定のAPI使って生成された文字列の文字コードと、
VC++2005EE のエディタがデフォルトで使用する文字コードってのは全然別。

コンパイル結果の文字コードってのも、先頭に L が付いてる文字列リテラルとか
_T() で括られた文字列リテラルとか、etc etc
ちゃんと区別しないと何の事言ってるのかわからん。

とりあえず、スレ違いっぽい。

971 968,964 [sage] 投稿日:2006/03/22(水) 18:19:09

>>969
ご紹介有難うございます。
その後ぐぐって説明を読んでいますが、想像以上に複雑怪奇ですね。

自分のアプリの機能の１つは、ファイルをダブル・クリックすると文字であろうが
絵であろうが内容を見て表示するということです。文字の場合はしかるべき変換を
して edit control へ送り込んでいます。dos, linux, mac, jis, euc, .rtf,
.doc, .html（tagを抜く）, base64, ...と拡張して来ました。
edit control で文字にならないなら、.... 最後は hex。
これに unicode も含めたい。
で、今までのところ種種の文字変換を自前ってのは大変だなあとの感じ。
当面 SF_UNICODE を指定して edit control へ送るのかなと弱気になって
います。

972 デフォルトの名無しさん [sage] 投稿日:2006/03/22(水) 20:39:56

「N'ko」って何て発音すればいいの?

973 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 06:02:07

「ンコ」でいいかと。

974 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 11:24:51

次スレのタイトルは、文字コード総合スレ part2　でよろ

975 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 14:03:41

統一はおかしいよな

976 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 14:11:17

あぁ、Raruty の右側のダイアログみたいな感じですね？（ぇ
UTF-16なテキストに対応するのでしたら、BOMがあるものだけ対応しておけばよいかと。
ついでにUTF-8も対応しておくといいんじゃないかな。

なお、edit controlまわりの話はわからないのですけれど、
文字コード変換はWin32 APIを使った方がいいのでは？
Shift_JISはCP932、EUC-JPはCP51932だと思えば、とりあえずはいいので。
http://msdn.microsoft.com/library/ja/jpintl/html/_win32_multibytetowidechar.asp

977 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 14:52:55

>>976
>Shift_JISはCP932
工エｴ(´Д`)ｴエ工

978 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 15:04:25

なんでCP51932が使えないMultiByteToWideCharを出してんだろ……

CP51932がMultiByteToWideCharで使えないのってWindowsXPだけなんかな？

979 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 16:15:40

>>977
Shift-JISとCP932との違いを知らない人は相当いるよ。
あるいは知っていても大体同じだと言って区別をしない人も。

980 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 16:58:22

CP932と区別する場合は、Shift-JISではなくShift_JISと書きたい。

981 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 17:33:21

旧マックは正しいShift-JIS？

982 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 17:38:15

正しくないShift_JISはあるが、Shift-JISには正しいも正しくないもない。

983 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 17:49:20

>>980
Shift-JISとShift_JISとの違いを知らない人は相当いるよ。
あるいは知っていても大体同じだと言って区別をしない人も。

984 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 18:34:03

ShitJIS

985 971,968 [sage] 投稿日:2006/03/23(木) 18:39:30

>>976
ご助言を有難うございます。code page は GetACP() で済ませていまして
932 とかいうを知ったのはほんの数日前 VC++2005EE を使ってみてから。

WinAPI を使った変換は既に使っています。hex 表示でも右側に ascii 表示
をしますが、このときも SJIS, UTF-16, 純ascii、・・・をマウスの
右クリックで変更可能にしないと何があるのか判別しにくいですから。
ただ、UTF は 16 しか対応していませんでした。というか GetACP() まかせ。

986 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 19:50:54

っていうか、Windowsで「Shift_JIS」って言っている時、
たいていShift_JISじゃなくてCP932じゃん。

987 デフォルトの名無しさん [sage] 投稿日:2006/03/23(木) 20:20:48

「Windowsで」とは?

988 デフォルトの名無しさん [sage] 投稿日:2006/03/24(金) 20:00:46

それこそ、意味もわからず「Shift_JIS」と書いているんだろ。

989 デフォルトの名無しさん [sage] 投稿日:2006/03/25(土) 03:58:22

文字コードの種類は何故複数あるのでしょうか？
http://pc8.2ch.net/test/read.cgi/tech/1093251312/l50

990 デフォルトの名無しさん [sage] 投稿日:2006/03/26(日) 09:35:52

↑

991 デフォルトの名無しさん [sage] 投稿日:2006/03/26(日) 09:39:05

↑

992 デフォルトの名無しさん [sage] 投稿日:2006/03/26(日) 21:21:33

↓
文字コード総合スレ part2
http://pc8.2ch.net/test/read.cgi/tech/1143375639

↓

993 デフォルトの名無しさん [sage] 投稿日:2006/03/26(日) 21:31:10

←

994 デフォルトの名無しさん [sage] 投稿日:2006/03/26(日) 21:48:06

↓
←

995 985,971 [sage] 投稿日:2006/03/27(月) 07:15:05

教えて貰って UTF-16, UTF-8 の文書をファイル名ダブルクリックで表示するよう
やってるんだが、rich edit control は EM_STREAMIN & SF_UNICODE で UTF-16
は表示するが、UTF-8 は無視される。VS C++2005EE では project.sin ファイル
が UTF-8 なので、これで試しているが、手抜きだなあ。

996 デフォルトの名無しさん [sage] 投稿日:2006/03/27(月) 09:20:09

出て行け

997 デフォルトの名無しさん [sage] 投稿日:2006/03/27(月) 11:48:18

渡世人でごさんす。通りすがりでちょいとご挨拶したまでで、
長いは毛頭いたすつもりはありやせん。ご懸念なく。ヘイ。

おあにいさんもシマの見張りをご苦労さんでござんす。

998 デフォルトの名無しさん [sage] 投稿日:2006/03/27(月) 13:07:15

UTF-8 と UTF-16 は別物。
SF_UNICODE の「UNICODE」は UTF-16 のことだから、UTF-8 が認識されないのは当たり前。

999 デフォルトの名無しさん 投稿日:2006/03/27(月) 15:35:15

次スレは？

1000 デフォルトの名無しさん [sage] 投稿日:2006/03/27(月) 15:37:16

文字コード総合スレ part2
http://pc8.2ch.net/test/read.cgi/tech/1143375639

1001 １００１ 投稿日:Over 1000 Thread

このスレッドは１０００を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。