2009/11/16 21:23 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01818] Re: 々 |
参照先: [XML MOJI 01817] Re: 々 (SUGAWARA Hajime <sugawara@weakpoint.jpn.org>)
> > 々(U+3005)は、HIRAGANAブロックに入っていますが、.NET環境の正規表現と > > してのp{IsHiragana}にではマッチしないようです。これは、他の言語 > > でもそうでしょうか? > > Perlで試してみたら、やはりマッチしませんでした。 > ちなみにHan,IsHanでマッチしています。 うーん、やはりそうなんですね。 当たり前かもしれませんが、々は教育漢字にも当用漢字にもIICOREにも入ってい ません。 -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
2009/11/15 12:49 |
From:SUGAWARA Hajime <sugawara@weakpoint.jpn.org> [XML MOJI 01817] Re: 々 |
参照先: [XML MOJI 01814] 々 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
菅原です。 > 々(U+3005)は、HIRAGANAブロックに入っていますが、.NET環境の正規表現と > してのp{IsHiragana}にではマッチしないようです。これは、他の言語 > でもそうでしょうか? Perlで試してみたら、やはりマッチしませんでした。 ちなみにHan,IsHanでマッチしています。 -- 菅原はじめ@うぃーくぽいんと mailto:sugawara@weakpoint.jpn.org
2009/11/15 11:05 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01816] 当用漢字に入っていない文字でxml-mojiで使われたもの |
常用漢字についてCREPDLで記述してくれる人がいれば、常用漢字の場合でも できます。 646 俣 130 彦 120 宏 87 卯 85 僕 72 誰 71 藤 54 倭 31 頁 30 駄 28 縄 26 枠 25 戻 25 崎 24 韓 21 頃 20 羅 19 桁 18 淳 18 嫌 18 伊 15 謎 15 肢 13 漠 12 曖 12 李 12 弥 12 昧 12 潰 12 鹿 12 嘘 10 須 9 蒙 9 汎 9 把 9 奈 9 叩 9 些 8 妄 8 朴 8 宋 8 稼 7 魏 7 澤 7 嵐 7 揃 7 挿 7 喧 7 汲 7 鎌 7 嘩 7 岡 6 諷 6 誦 6 藏 6 經 6 檜 6 惧 6 倚 6 播 6 之 6 遡 6 凄 6 梱 6 弘 6 宛 5 隋 5 煕 5 壹 5 嗚 5 喩 5 貰 5 樋 5 眺 5 甚 5 駿 5 叱 5 晒 5 皿 5 迦 5 云 5 謂 4 體 4 國 4 咸 4 歪 4 湧 4 抹 4 雰 4 頻 4 捻 4 砥 4 填 4 泥 4 辻 4 辿 4 騨 4 捉 4 尚 4 纂 4 亀 4 俺 4 鴎 3 蟠 3 繩 3 綺 3 篆 3 箋 3 鬱 3 梵 3 徠 3 徂 3 嶌 3 詫 3 呂 3 瞭 3 龍 3 勃 3 輔 3 覗 3 呑 3 嶋 3 筑 3 汰 3 其 3 昌 3 蛇 3 劫 3 圭 3 嬉 3 噛 3 葛 3 垣 3 溢 2 騙 2 鄰 2 轢 2 軋 2 貶 2 訛 2 裔 2 藝 2 穽 2 礒 2 煌 2 洒 2 衍 2 條 2 捏 2 恣 2 彙 2 廖 2 嵜 2 嚼 2 咀 2 會 2 琉 2 螺 2 涌 2 靖 2 尤 2 牟 2 殆 2 褒 2 呆 2 桧 2 披 2 秤 2 覇 2 猫 2 敦 2 棟 2 搭 2 貼 2 亭 2 爪 2 綴 2 綻 2 旦 2 啄 2 詮 2 羨 2 拭 2 哨 2 薩 2 挫 2 沙 2 浩 2 詣 2 繋 2 隅 2 稀 2 廻 2 俄 2 蝦 2 渦 2 鵜 2 椅 2 夷 2 粟 1 靡 1 頷 1 勒 1 闊 1 鑿 1 錢 1 扈 1 邇 1 辟 1 躓 1 躊 1 躇 1 跋 1 贔 1 贓 1 贅 1 謗 1 褄 1 衲 1 衙 1 竄 1 稷 1 疇 1 獨 1 漱 1 滓 1 榮 1 杞 1 斂 1 擱 1 掟 1 搜 1 應 1 憚 1 愕 1 屓 1 寇 1 墟 1 囁 1 噤 1 喃 1 傳 1 偸 1 俎 1 儘 1 于 1 脇 1 嶺 1 鱗 1 梁 1 侶 1 淀 1 遥 1 厄 1 勿 1 儲 1 蔓 1 迄 1 枕 1 朋 1 菩 1 甫 1 瀕 1 眉 1 誹 1 磐 1 氾 1 斑 1 鳩 1 幡 1 莫 1 馴 1 苫 1 淘 1 賭 1 溺 1 諦 1 挑 1 喋 1 猪 1 檀 1 棚 1 戴 1 蒼 1 綜 1 狙 1 曽 1 曾 1 仙 1 斉 1 醒 1 棲 1 雛 1 尻 1 庄 1 呪 1 灼 1 柴 1 而 1 撒 1 傘 1 柵 1 埼 1 阪 1 塞 1 裟 1 此 1 庚 1 乞 1 狐 1 隙 1 稽 1 袈 1 熊 1 挟 1 仇 1 笠 1 苛 1 荻 1 於 1 苑 1 閏 1 阿 1 False -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
2009/11/15 10:54 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01815] Re: 文字レパートリのXML記述とテキスト検査 |
参照先: [XML MOJI 01813] Re: 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
union, intersection, differenceは、だいたい想像がつくと思います。 1) union 子要素はいくらあってもいいです。いずかの子要素が記述するレパートリ に含まれていれば、このunionにも含まれていると判定されます。 これはよく使います。いろんな例題に含まれています。 2) intersection 子要素はいくらあってもいいです。どの子要素が記述するレパートリにも含まれ ていれば、このintersectionにも含まれていると判定されます。 私はめったに使いません。後述するkernel/hullを使うときぐらいしか、 intersectionの使い方は私には思いついてません。まあ、Unicodeの property指定とブロック指定を併用するなんてときは便利かもしれません。 3) difference 子要素はいくらあってもいいです。先頭の子要素が記述するレパートリに含まれて いて、他のどの子要素が記述するレパートリにも含まれてなければ、このdifference に含まれていると判定されます。 これも私はまだ使ったことがありません。 -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
2009/11/15 08:36 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01814] 々 |
々(U+3005)は、HIRAGANAブロックに入っていますが、.NET環境の正規表現と してのp{IsHiragana}にではマッチしないようです。これは、他の言語 でもそうでしょうか? -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
2009/11/11 19:32 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01813] Re: 文字レパートリのXML記述とテキスト検査 |
参照先: [XML MOJI 01809] 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
> 4) CREPDL仕様の説明 > > JISも作っていますが、原案を無料公開すると怒られるかもしれないので、公開 > はできません。しかし、例をみればだいたいわかると思います。 もう、公開されていました。 http://www.y-adagio.com/public/committees/spii/spii08_wg2/2008rep/a2_3.doc -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
2009/11/11 13:51 |
From:Akira Kawamata <autumn@piedey.co.jp> [XML MOJI 01812] Re: 絵文字混乱の指摘 |
参照先: [XML MOJI 01808] Re: 絵文字混乱の指摘 (Akira Kawamata <autumn@piedey.co.jp>)
続報2件です。 > ■[文字コード] 絵文字の修正提案をめぐる、ひとまずの総括 http://d.hatena.ne.jp/ogwata/20091109/p1 > ■[新常用漢字表] 第42回国語分科会が「改定常用漢字表」を承認 http://d.hatena.ne.jp/ogwata/20091110/p1 まだじっくり読む時間はないのですが、とりあえずお疲れ様! -- (株)ピーデー 川俣 晶 / Private Web Magazine: http://mag.autumn.org/ Official: akirak@piedey.co.jp / Private: autumn@piedey.co.jp
2009/11/11 11:23 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01811] Re: 文字レパートリのXML記述とテキスト検査 |
参照先: [XML MOJI 01810] Re: 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
皆さん、 CREPDLの構文を表すスキーマ(当然RELAX NG)はすでに公開されています。 http://www.asahi-net.or.jp/~eb2m-mrt/crepdl/schemas/1.0/crepdl.rnc repertoire要素の使い方について説明します。これは、10646のコレクションを 指定するため、IANAのcharsetを指定するために用います。UnicodeのCLDR はまだ実装していません。 10646のコレクション <repertoire registry="10646" number="24"/> と書きます。numberがコレクションの番号です。 IANAのcharset <repertoire registry="IANA" name="ISO_8859-15" /> と書きます。name属性で名前を指定します。 -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
2009/11/10 21:24 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01810] Re: 文字レパートリのXML記述とテキスト検査 |
参照先: [XML MOJI 01809] 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)
皆さん、 たぶん、皆さんは絶賛の長文メールを書くのに忙しいのでしょう(図々しく ないと標準化はできない)。その間に私が例を書きます。 <char xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0">\p{IsHiragana}</char> これは、ひらがな(Hiraganaブロック)だけを許すという記述です。 <char xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0" >[。-xFF9F;]</char> こじは、Halfwidth Katakanaだけを許すという記述です。 <union xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0"> <char>[一右雨円王音下火花貝学気九休玉金空月犬見]</char> <char>[五口校左三山子四糸字耳七車手十出女小上森]</char> <char>[人水正生青夕石赤千川先早草足村大男竹中虫]</char> <char>[町天田土二日入年白八百文木本名目立力林六]</char> </union> これは小学校一年生の教育漢字です。二年生、三年生などは省略します。 <union xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0"> <ref href="kyouiku1b.crepdl"/> <ref href="kyouiku2b.crepdl"/> <ref href="kyouiku3.crepdl"/> </union> これは、一年生、二年生、三年生の全漢字です。 ここまでの範囲の機能を使えば、たいていのことはできるでしょう。あと残って いるのは、intersection, difference, repertoire, kernel, hullです。これら については別に書きます。 -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>
2009/11/10 11:39 |
From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp> [XML MOJI 01809] 文字レパートリのXML記述とテキスト検査 |
皆さん、 文字レパートリを記述し、それにもとづいてXML文書の一部がその 範囲にある文字だけで書かれているかを検査するための国際規格 がまもなく成立します。自分でも実装してみました。 ISO/IEC 19757-7 Document Schema Definition Languages (DSDL) -- Character Repertoire Description Language (CREPDL) もうずいぶん前ですが、京都で発表したこともあります。 http://kura.hanazono.ac.jp/paper/20040609murata.ppt 実装して使ってみたところ、少しは役に立つような気もします。 自分が使うのは当用漢字に毛の生えた程度だと確認できました。 皆さんのフィードバックに期待しています。 ろくにドキュメントは揃っていないのですが、このメールに書くことだけで、 十分に理解できるでしょう。 1) 動作環境 Windows, .Net framework 3.5必要 2)ダウンロード http://www.asahi-net.or.jp/~eb2m-mrt/crepdl/crepdl.zip 3) 入っているもの CREPDLによる記述例と検査プログラム 日本語関係の記述例には、人名漢字、教育漢字、当用漢字などがあります。 検査プログラムはCREPDL.exeです。 4) CREPDL仕様の説明 JISも作っていますが、原案を無料公開すると怒られるかもしれないので、公開 はできません。しかし、例をみればだいたいわかると思います。 - 既存レパートリにもとづく指定: <repertoire .../> <repertoire registry="IANA" ../> (IANA charsets) and <repertoire registry="10646" ../> (10646 collections)は実装してあります。 10646のコレクションについてはIICOREは未実装です。 - 正規表現にもとづく指定: <char>...</char> テキスト内容として、文字、文字の列挙や範囲、\P{IsHiraganara}などが指定 できます。 - 演算: union/intersection/differenceがあります。 - 外部参照: <ref href="..."/> 5) 検査プログラムの実行 CREPDL スキーマ指定 テキストファイル指定 です。スキーマ指定はURIでいいです。ファイル指定のうしろに、shift_JISなど のencoding名をつけることもできます。 テキストファイルの各文字を検査し、検査結果を表示します。 将来は、RELAX NG, Schematron, OOXML, ODF, HTMLフォームなどから 利用できたらいいなと思ってますが、今後どうなるかは分かりません。 -- 国際大学 村田 真 <EB2M-MRT@asahi-net.or.jp>