| 2009/11/16 21:23 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01818] Re: 々 |
参照先: [XML MOJI 01817] Re: 々 (SUGAWARA Hajime <sugawara@weakpoint.jpn.org>)
> > 々(U+3005)は、HIRAGANAブロックに入っていますが、.NET環境の正規表現と
> > してのp{IsHiragana}にではマッチしないようです。これは、他の言語
> > でもそうでしょうか?
>
> Perlで試してみたら、やはりマッチしませんでした。
> ちなみにHan,IsHanでマッチしています。
うーん、やはりそうなんですね。
当たり前かもしれませんが、々は教育漢字にも当用漢字にもIICOREにも入ってい
ません。
--
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>| 2009/11/15 12:49 |
From:SUGAWARA Hajime <sugawara@weakpoint.jpn.org> [XML MOJI 01817] Re: 々 |
参照先: [XML MOJI 01814] 々 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
菅原です。
> 々(U+3005)は、HIRAGANAブロックに入っていますが、.NET環境の正規表現と
> してのp{IsHiragana}にではマッチしないようです。これは、他の言語
> でもそうでしょうか?
Perlで試してみたら、やはりマッチしませんでした。
ちなみにHan,IsHanでマッチしています。
--
菅原はじめ@うぃーくぽいんと
mailto:sugawara@weakpoint.jpn.org| 2009/11/15 11:05 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01816] 当用漢字に入っていない文字でxml-mojiで使われたもの |
常用漢字についてCREPDLで記述してくれる人がいれば、常用漢字の場合でも
できます。
646 俣
130 彦
120 宏
87 卯
85 僕
72 誰
71 藤
54 倭
31 頁
30 駄
28 縄
26 枠
25 戻
25 崎
24 韓
21 頃
20 羅
19 桁
18 淳
18 嫌
18 伊
15 謎
15 肢
13 漠
12 曖
12 李
12 弥
12 昧
12 潰
12 鹿
12 嘘
10 須
9 蒙
9 汎
9 把
9 奈
9 叩
9 些
8 妄
8 朴
8 宋
8 稼
7 魏
7 澤
7 嵐
7 揃
7 挿
7 喧
7 汲
7 鎌
7 嘩
7 岡
6 諷
6 誦
6 藏
6 經
6 檜
6 惧
6 倚
6 播
6 之
6 遡
6 凄
6 梱
6 弘
6 宛
5 隋
5 煕
5 壹
5 嗚
5 喩
5 貰
5 樋
5 眺
5 甚
5 駿
5 叱
5 晒
5 皿
5 迦
5 云
5 謂
4 體
4 國
4 咸
4 歪
4 湧
4 抹
4 雰
4 頻
4 捻
4 砥
4 填
4 泥
4 辻
4 辿
4 騨
4 捉
4 尚
4 纂
4 亀
4 俺
4 鴎
3 蟠
3 繩
3 綺
3 篆
3 箋
3 鬱
3 梵
3 徠
3 徂
3 嶌
3 詫
3 呂
3 瞭
3 龍
3 勃
3 輔
3 覗
3 呑
3 嶋
3 筑
3 汰
3 其
3 昌
3 蛇
3 劫
3 圭
3 嬉
3 噛
3 葛
3 垣
3 溢
2 騙
2 鄰
2 轢
2 軋
2 貶
2 訛
2 裔
2 藝
2 穽
2 礒
2 煌
2 洒
2 衍
2 條
2 捏
2 恣
2 彙
2 廖
2 嵜
2 嚼
2 咀
2 會
2 琉
2 螺
2 涌
2 靖
2 尤
2 牟
2 殆
2 褒
2 呆
2 桧
2 披
2 秤
2 覇
2 猫
2 敦
2 棟
2 搭
2 貼
2 亭
2 爪
2 綴
2 綻
2 旦
2 啄
2 詮
2 羨
2 拭
2 哨
2 薩
2 挫
2 沙
2 浩
2 詣
2 繋
2 隅
2 稀
2 廻
2 俄
2 蝦
2 渦
2 鵜
2 椅
2 夷
2 粟
1 靡
1 頷
1 勒
1 闊
1 鑿
1 錢
1 扈
1 邇
1 辟
1 躓
1 躊
1 躇
1 跋
1 贔
1 贓
1 贅
1 謗
1 褄
1 衲
1 衙
1 竄
1 稷
1 疇
1 獨
1 漱
1 滓
1 榮
1 杞
1 斂
1 擱
1 掟
1 搜
1 應
1 憚
1 愕
1 屓
1 寇
1 墟
1 囁
1 噤
1 喃
1 傳
1 偸
1 俎
1 儘
1 于
1 脇
1 嶺
1 鱗
1 梁
1 侶
1 淀
1 遥
1 厄
1 勿
1 儲
1 蔓
1 迄
1 枕
1 朋
1 菩
1 甫
1 瀕
1 眉
1 誹
1 磐
1 氾
1 斑
1 鳩
1 幡
1 莫
1 馴
1 苫
1 淘
1 賭
1 溺
1 諦
1 挑
1 喋
1 猪
1 檀
1 棚
1 戴
1 蒼
1 綜
1 狙
1 曽
1 曾
1 仙
1 斉
1 醒
1 棲
1 雛
1 尻
1 庄
1 呪
1 灼
1 柴
1 而
1 撒
1 傘
1 柵
1 埼
1 阪
1 塞
1 裟
1 此
1 庚
1 乞
1 狐
1 隙
1 稽
1 袈
1 熊
1 挟
1 仇
1 笠
1 苛
1 荻
1 於
1 苑
1 閏
1 阿
1 False
--
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>| 2009/11/15 10:54 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01815] Re: 文字レパートリのXML記述とテキスト検査 |
参照先: [XML MOJI 01813] Re: 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
union, intersection, differenceは、だいたい想像がつくと思います。 1) union 子要素はいくらあってもいいです。いずかの子要素が記述するレパートリ に含まれていれば、このunionにも含まれていると判定されます。 これはよく使います。いろんな例題に含まれています。 2) intersection 子要素はいくらあってもいいです。どの子要素が記述するレパートリにも含まれ ていれば、このintersectionにも含まれていると判定されます。 私はめったに使いません。後述するkernel/hullを使うときぐらいしか、 intersectionの使い方は私には思いついてません。まあ、Unicodeの property指定とブロック指定を併用するなんてときは便利かもしれません。 3) difference 子要素はいくらあってもいいです。先頭の子要素が記述するレパートリに含まれて いて、他のどの子要素が記述するレパートリにも含まれてなければ、このdifference に含まれていると判定されます。 これも私はまだ使ったことがありません。 -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
| 2009/11/15 08:36 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01814] 々 |
々(U+3005)は、HIRAGANAブロックに入っていますが、.NET環境の正規表現と
してのp{IsHiragana}にではマッチしないようです。これは、他の言語
でもそうでしょうか?
--
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>| 2009/11/11 19:32 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01813] Re: 文字レパートリのXML記述とテキスト検査 |
参照先: [XML MOJI 01809] 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
> 4) CREPDL仕様の説明 > > JISも作っていますが、原案を無料公開すると怒られるかもしれないので、公開 > はできません。しかし、例をみればだいたいわかると思います。 もう、公開されていました。 http://www.y-adagio.com/public/committees/spii/spii08_wg2/2008rep/a2_3.doc -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
| 2009/11/11 13:51 |
From:Akira Kawamata <autumn@piedey.co.jp> [XML MOJI 01812] Re: 絵文字混乱の指摘 |
参照先: [XML MOJI 01808] Re: 絵文字混乱の指摘 (Akira Kawamata <autumn@piedey.co.jp>)
続報2件です。
> ■[文字コード] 絵文字の修正提案をめぐる、ひとまずの総括
http://d.hatena.ne.jp/ogwata/20091109/p1
> ■[新常用漢字表] 第42回国語分科会が「改定常用漢字表」を承認
http://d.hatena.ne.jp/ogwata/20091110/p1
まだじっくり読む時間はないのですが、とりあえずお疲れ様!
--
(株)ピーデー 川俣 晶 / Private Web Magazine: http://mag.autumn.org/
Official: akirak@piedey.co.jp / Private: autumn@piedey.co.jp| 2009/11/11 11:23 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01811] Re: 文字レパートリのXML記述とテキスト検査 |
参照先: [XML MOJI 01810] Re: 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
皆さん、 CREPDLの構文を表すスキーマ(当然RELAX NG)はすでに公開されています。 http://www.asahi-net.or.jp/~eb2m-mrt/crepdl/schemas/1.0/crepdl.rnc repertoire要素の使い方について説明します。これは、10646のコレクションを 指定するため、IANAのcharsetを指定するために用います。UnicodeのCLDR はまだ実装していません。 10646のコレクション <repertoire registry="10646" number="24"/> と書きます。numberがコレクションの番号です。 IANAのcharset <repertoire registry="IANA" name="ISO_8859-15" /> と書きます。name属性で名前を指定します。 -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
| 2009/11/10 21:24 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01810] Re: 文字レパートリのXML記述とテキスト検査 |
参照先: [XML MOJI 01809] 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
皆さん、
たぶん、皆さんは絶賛の長文メールを書くのに忙しいのでしょう(図々しく
ないと標準化はできない)。その間に私が例を書きます。
<char
xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0">\p{IsHiragana}</char>
これは、ひらがな(Hiraganaブロック)だけを許すという記述です。
<char xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0"
>[。-xFF9F;]</char>
こじは、Halfwidth Katakanaだけを許すという記述です。
<union xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0">
<char>[一右雨円王音下火花貝学気九休玉金空月犬見]</char>
<char>[五口校左三山子四糸字耳七車手十出女小上森]</char>
<char>[人水正生青夕石赤千川先早草足村大男竹中虫]</char>
<char>[町天田土二日入年白八百文木本名目立力林六]</char>
</union>
これは小学校一年生の教育漢字です。二年生、三年生などは省略します。
<union xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0">
<ref href="kyouiku1b.crepdl"/>
<ref href="kyouiku2b.crepdl"/>
<ref href="kyouiku3.crepdl"/>
</union>
これは、一年生、二年生、三年生の全漢字です。
ここまでの範囲の機能を使えば、たいていのことはできるでしょう。あと残って
いるのは、intersection, difference, repertoire, kernel, hullです。これら
については別に書きます。
--
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>| 2009/11/10 11:39 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01809] 文字レパートリのXML記述とテキスト検査 |
皆さん、
文字レパートリを記述し、それにもとづいてXML文書の一部がその
範囲にある文字だけで書かれているかを検査するための国際規格
がまもなく成立します。自分でも実装してみました。
ISO/IEC 19757-7
Document Schema Definition Languages (DSDL) --
Character Repertoire Description Language (CREPDL)
もうずいぶん前ですが、京都で発表したこともあります。
http://kura.hanazono.ac.jp/paper/20040609murata.ppt
実装して使ってみたところ、少しは役に立つような気もします。
自分が使うのは当用漢字に毛の生えた程度だと確認できました。
皆さんのフィードバックに期待しています。
ろくにドキュメントは揃っていないのですが、このメールに書くことだけで、
十分に理解できるでしょう。
1) 動作環境
Windows, .Net framework 3.5必要
2)ダウンロード
http://www.asahi-net.or.jp/~eb2m-mrt/crepdl/crepdl.zip
3) 入っているもの
CREPDLによる記述例と検査プログラム
日本語関係の記述例には、人名漢字、教育漢字、当用漢字などがあります。
検査プログラムはCREPDL.exeです。
4) CREPDL仕様の説明
JISも作っていますが、原案を無料公開すると怒られるかもしれないので、公開
はできません。しかし、例をみればだいたいわかると思います。
- 既存レパートリにもとづく指定: <repertoire .../>
<repertoire registry="IANA" ../> (IANA charsets) and
<repertoire registry="10646" ../> (10646 collections)は実装してあります。
10646のコレクションについてはIICOREは未実装です。
- 正規表現にもとづく指定: <char>...</char>
テキスト内容として、文字、文字の列挙や範囲、\P{IsHiraganara}などが指定
できます。
- 演算: union/intersection/differenceがあります。
- 外部参照: <ref href="..."/>
5) 検査プログラムの実行
CREPDL スキーマ指定 テキストファイル指定
です。スキーマ指定はURIでいいです。ファイル指定のうしろに、shift_JISなど
のencoding名をつけることもできます。
テキストファイルの各文字を検査し、検査結果を表示します。
将来は、RELAX NG, Schematron, OOXML, ODF, HTMLフォームなどから
利用できたらいいなと思ってますが、今後どうなるかは分かりません。
--
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>