XMLと文字メーリングリスト メニューページ

[サイトのトップ][XMLと文字メーリングリスト メニューページ][ログイン][参加ガイド][新スレッド作成][スレッド一覧][メッセージ閲覧][メンバー登録][メンバー登録情報変更][パスワード変更][パスワードを忘れたら][メンバー登録解除][メッセージ削除][エラーで配信停止したメンバーリスト]

リスト板管理者からのメッセージ

これは、XMLと文字の関係という悩ましい問題について議論するためのメーリングリストです。参加資格は、XMLまたは文字に関する興味のある方々です。

最近更新されたスレッド

最終更新スレッド名順序
2009/11/16 21:233時間順
2009/11/15 11:051当用漢字に入っていない文字でxml-mojiで使われたもの時間順
2009/11/15 10:545文字レパートリのXML記述とテキスト検査時間順
2009/11/11 13:515絵文字混乱の指摘時間順
2009/10/11 12:481いつの間にか待ったなしの「叱る」問題時間順
2009/08/15 00:342Wikipediaの10646の記事時間順
2009/07/29 09:471長音表記の理由時間順
2009/06/05 10:001ゴシックでも明朝でもなく……時間順
2009/04/17 06:232「「新常用漢字表(仮称)」に関する試案」についての意見時間順
2009/04/06 10:451飛翔体問題時間順

新着メッセージ

2009/11/16 21:23

From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>

[XML MOJI 01818] Re: 々

参照先: [XML MOJI 01817] Re: 々 (SUGAWARA Hajime <sugawara@weakpoint.jpn.org>)

> > 々(U+3005)は、HIRAGANAブロックに入っていますが、.NET環境の正規表現と
> > してのp{IsHiragana}にではマッチしないようです。これは、他の言語
> > でもそうでしょうか?
> 
>  Perlで試してみたら、やはりマッチしませんでした。
>  ちなみにHan,IsHanでマッチしています。

うーん、やはりそうなんですね。

当たり前かもしれませんが、々は教育漢字にも当用漢字にもIICOREにも入ってい
ません。

-- 
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>

このメッセージにコメントを書く

2009/11/15 12:49

From:SUGAWARA Hajime <sugawara@weakpoint.jpn.org>

[XML MOJI 01817] Re: 々

参照先: [XML MOJI 01814] 々 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)

 菅原です。

> 々(U+3005)は、HIRAGANAブロックに入っていますが、.NET環境の正規表現と
> してのp{IsHiragana}にではマッチしないようです。これは、他の言語
> でもそうでしょうか?

 Perlで試してみたら、やはりマッチしませんでした。
 ちなみにHan,IsHanでマッチしています。

-- 
菅原はじめ@うぃーくぽいんと
mailto:sugawara@weakpoint.jpn.org

このメッセージにコメントを書く

2009/11/15 11:05

From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>

[XML MOJI 01816] 当用漢字に入っていない文字でxml-mojiで使われたもの

常用漢字についてCREPDLで記述してくれる人がいれば、常用漢字の場合でも
できます。

    646 俣
    130 彦
    120 宏
     87 卯
     85 僕
     72 誰
     71 藤
     54 倭
     31 頁
     30 駄
     28 縄
     26 枠
     25 戻
     25 崎
     24 韓
     21 頃
     20 羅
     19 桁
     18 淳
     18 嫌
     18 伊
     15 謎
     15 肢
     13 漠
     12 曖
     12 李
     12 弥
     12 昧
     12 潰
     12 鹿
     12 嘘
     10 須
      9 蒙
      9 汎
      9 把
      9 奈
      9 叩
      9 些
      8 妄
      8 朴
      8 宋
      8 稼
      7 魏
      7 澤
      7 嵐
      7 揃
      7 挿
      7 喧
      7 汲
      7 鎌
      7 嘩
      7 岡
      6 諷
      6 誦
      6 藏
      6 經
      6 檜
      6 惧
      6 倚
      6 播
      6 之
      6 遡
      6 凄
      6 梱
      6 弘
      6 宛
      5 隋
      5 煕
      5 壹
      5 嗚
      5 喩
      5 貰
      5 樋
      5 眺
      5 甚
      5 駿
      5 叱
      5 晒
      5 皿
      5 迦
      5 云
      5 謂
      4 體
      4 國
      4 咸
      4 歪
      4 湧
      4 抹
      4 雰
      4 頻
      4 捻
      4 砥
      4 填
      4 泥
      4 辻
      4 辿
      4 騨
      4 捉
      4 尚
      4 纂
      4 亀
      4 俺
      4 鴎
      3 蟠
      3 繩
      3 綺
      3 篆
      3 箋
      3 鬱
      3 梵
      3 徠
      3 徂
      3 嶌
      3 詫
      3 呂
      3 瞭
      3 龍
      3 勃
      3 輔
      3 覗
      3 呑
      3 嶋
      3 筑
      3 汰
      3 其
      3 昌
      3 蛇
      3 劫
      3 圭
      3 嬉
      3 噛
      3 葛
      3 垣
      3 溢
      2 騙
      2 鄰
      2 轢
      2 軋
      2 貶
      2 訛
      2 裔
      2 藝
      2 穽
      2 礒
      2 煌
      2 洒
      2 衍
      2 條
      2 捏
      2 恣
      2 彙
      2 廖
      2 嵜
      2 嚼
      2 咀
      2 會
      2 琉
      2 螺
      2 涌
      2 靖
      2 尤
      2 牟
      2 殆
      2 褒
      2 呆
      2 桧
      2 披
      2 秤
      2 覇
      2 猫
      2 敦
      2 棟
      2 搭
      2 貼
      2 亭
      2 爪
      2 綴
      2 綻
      2 旦
      2 啄
      2 詮
      2 羨
      2 拭
      2 哨
      2 薩
      2 挫
      2 沙
      2 浩
      2 詣
      2 繋
      2 隅
      2 稀
      2 廻
      2 俄
      2 蝦
      2 渦
      2 鵜
      2 椅
      2 夷
      2 粟
      1 靡
      1 頷
      1 勒
      1 闊
      1 鑿
      1 錢
      1 扈
      1 邇
      1 辟
      1 躓
      1 躊
      1 躇
      1 跋
      1 贔
      1 贓
      1 贅
      1 謗
      1 褄
      1 衲
      1 衙
      1 竄
      1 稷
      1 疇
      1 獨
      1 漱
      1 滓
      1 榮
      1 杞
      1 斂
      1 擱
      1 掟
      1 搜
      1 應
      1 憚
      1 愕
      1 屓
      1 寇
      1 墟
      1 囁
      1 噤
      1 喃
      1 傳
      1 偸
      1 俎
      1 儘
      1 于
      1 脇
      1 嶺
      1 鱗
      1 梁
      1 侶
      1 淀
      1 遥
      1 厄
      1 勿
      1 儲
      1 蔓
      1 迄
      1 枕
      1 朋
      1 菩
      1 甫
      1 瀕
      1 眉
      1 誹
      1 磐
      1 氾
      1 斑
      1 鳩
      1 幡
      1 莫
      1 馴
      1 苫
      1 淘
      1 賭
      1 溺
      1 諦
      1 挑
      1 喋
      1 猪
      1 檀
      1 棚
      1 戴
      1 蒼
      1 綜
      1 狙
      1 曽
      1 曾
      1 仙
      1 斉
      1 醒
      1 棲
      1 雛
      1 尻
      1 庄
      1 呪
      1 灼
      1 柴
      1 而
      1 撒
      1 傘
      1 柵
      1 埼
      1 阪
      1 塞
      1 裟
      1 此
      1 庚
      1 乞
      1 狐
      1 隙
      1 稽
      1 袈
      1 熊
      1 挟
      1 仇
      1 笠
      1 苛
      1 荻
      1 於
      1 苑
      1 閏
      1 阿
      1 False

-- 
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>

このメッセージにコメントを書く

2009/11/15 10:54

From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>

[XML MOJI 01815] Re: 文字レパートリのXML記述とテキスト検査

参照先: [XML MOJI 01813] Re: 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)

union, intersection, differenceは、だいたい想像がつくと思います。

1) union

子要素はいくらあってもいいです。いずかの子要素が記述するレパートリ
に含まれていれば、このunionにも含まれていると判定されます。

これはよく使います。いろんな例題に含まれています。

2) intersection

子要素はいくらあってもいいです。どの子要素が記述するレパートリにも含まれ
ていれば、このintersectionにも含まれていると判定されます。

私はめったに使いません。後述するkernel/hullを使うときぐらいしか、
intersectionの使い方は私には思いついてません。まあ、Unicodeの
property指定とブロック指定を併用するなんてときは便利かもしれません。

3) difference

子要素はいくらあってもいいです。先頭の子要素が記述するレパートリに含まれて
いて、他のどの子要素が記述するレパートリにも含まれてなければ、このdifference
に含まれていると判定されます。

これも私はまだ使ったことがありません。

-- 
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>

このメッセージにコメントを書く

2009/11/15 08:36

From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>

[XML MOJI 01814] 々

々(U+3005)は、HIRAGANAブロックに入っていますが、.NET環境の正規表現と
してのp{IsHiragana}にではマッチしないようです。これは、他の言語
でもそうでしょうか?

-- 
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>

このメッセージにコメントを書く

2009/11/11 19:32

From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>

[XML MOJI 01813] Re: 文字レパートリのXML記述とテキスト検査

参照先: [XML MOJI 01809] 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)

> 4) CREPDL仕様の説明
> 
> JISも作っていますが、原案を無料公開すると怒られるかもしれないので、公開
> はできません。しかし、例をみればだいたいわかると思います。

もう、公開されていました。

http://www.y-adagio.com/public/committees/spii/spii08_wg2/2008rep/a2_3.doc

-- 
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>

このメッセージにコメントを書く

2009/11/11 13:51

From:Akira Kawamata <autumn@piedey.co.jp>

[XML MOJI 01812] Re: 絵文字混乱の指摘

参照先: [XML MOJI 01808] Re: 絵文字混乱の指摘 (Akira Kawamata <autumn@piedey.co.jp>)

 続報2件です。

> ■[文字コード] 絵文字の修正提案をめぐる、ひとまずの総括
http://d.hatena.ne.jp/ogwata/20091109/p1
> ■[新常用漢字表] 第42回国語分科会が「改定常用漢字表」を承認
http://d.hatena.ne.jp/ogwata/20091110/p1

 まだじっくり読む時間はないのですが、とりあえずお疲れ様!

-- 
     (株)ピーデー 川俣 晶 / Private Web Magazine: http://mag.autumn.org/
           Official: akirak@piedey.co.jp / Private: autumn@piedey.co.jp

このメッセージにコメントを書く

2009/11/11 11:23

From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>

[XML MOJI 01811] Re: 文字レパートリのXML記述とテキスト検査

参照先: [XML MOJI 01810] Re: 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)

皆さん、

CREPDLの構文を表すスキーマ(当然RELAX NG)はすでに公開されています。

http://www.asahi-net.or.jp/~eb2m-mrt/crepdl/schemas/1.0/crepdl.rnc

repertoire要素の使い方について説明します。これは、10646のコレクションを
指定するため、IANAのcharsetを指定するために用います。UnicodeのCLDR
はまだ実装していません。

10646のコレクション

<repertoire registry="10646" number="24"/>

と書きます。numberがコレクションの番号です。

IANAのcharset

<repertoire registry="IANA" name="ISO_8859-15" />

と書きます。name属性で名前を指定します。

-- 
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>

このメッセージにコメントを書く

2009/11/10 21:24

From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>

[XML MOJI 01810] Re: 文字レパートリのXML記述とテキスト検査

参照先: [XML MOJI 01809] 文字レパートリのXML記述とテキスト検査 ("MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>)

皆さん、

たぶん、皆さんは絶賛の長文メールを書くのに忙しいのでしょう(図々しく
ないと標準化はできない)。その間に私が例を書きます。

<char  
xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0">\p{IsHiragana}</char>

これは、ひらがな(Hiraganaブロック)だけを許すという記述です。

<char  xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0"
>[&#xFF61;-xFF9F;]</char>

こじは、Halfwidth Katakanaだけを許すという記述です。

<union xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0">
  <char>[一右雨円王音下火花貝学気九休玉金空月犬見]</char>
  <char>[五口校左三山子四糸字耳七車手十出女小上森]</char>
  <char>[人水正生青夕石赤千川先早草足村大男竹中虫]</char>
  <char>[町天田土二日入年白八百文木本名目立力林六]</char>
</union>

これは小学校一年生の教育漢字です。二年生、三年生などは省略します。

<union xmlns="http://purl.oclc.org/dsdl/crepdl/ns/structure/1.0">
  <ref href="kyouiku1b.crepdl"/>
  <ref href="kyouiku2b.crepdl"/>
  <ref href="kyouiku3.crepdl"/>
</union>

これは、一年生、二年生、三年生の全漢字です。

ここまでの範囲の機能を使えば、たいていのことはできるでしょう。あと残って
いるのは、intersection, difference, repertoire, kernel, hullです。これら
については別に書きます。

-- 
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>

このメッセージにコメントを書く

2009/11/10 11:39

From:"MURATA Makoto (FAMILY Given)" <eb2m-mrt@asahi-net.or.jp>

[XML MOJI 01809] 文字レパートリのXML記述とテキスト検査

皆さん、

文字レパートリを記述し、それにもとづいてXML文書の一部がその
範囲にある文字だけで書かれているかを検査するための国際規格
がまもなく成立します。自分でも実装してみました。

ISO/IEC 19757-7
Document Schema Definition Languages (DSDL) -- 
Character Repertoire Description Language (CREPDL)

もうずいぶん前ですが、京都で発表したこともあります。
http://kura.hanazono.ac.jp/paper/20040609murata.ppt

実装して使ってみたところ、少しは役に立つような気もします。
自分が使うのは当用漢字に毛の生えた程度だと確認できました。
皆さんのフィードバックに期待しています。

ろくにドキュメントは揃っていないのですが、このメールに書くことだけで、
十分に理解できるでしょう。

1)  動作環境

Windows, .Net framework 3.5必要

2)ダウンロード

http://www.asahi-net.or.jp/~eb2m-mrt/crepdl/crepdl.zip

3) 入っているもの

CREPDLによる記述例と検査プログラム

日本語関係の記述例には、人名漢字、教育漢字、当用漢字などがあります。

検査プログラムはCREPDL.exeです。

4) CREPDL仕様の説明

JISも作っていますが、原案を無料公開すると怒られるかもしれないので、公開
はできません。しかし、例をみればだいたいわかると思います。

- 既存レパートリにもとづく指定: <repertoire .../>

<repertoire registry="IANA" ../> (IANA charsets) and 
<repertoire registry="10646" ../> (10646 collections)は実装してあります。
10646のコレクションについてはIICOREは未実装です。

- 正規表現にもとづく指定: <char>...</char>

テキスト内容として、文字、文字の列挙や範囲、\P{IsHiraganara}などが指定
できます。

- 演算: union/intersection/differenceがあります。

- 外部参照:  <ref href="..."/>

5) 検査プログラムの実行

CREPDL スキーマ指定 テキストファイル指定

です。スキーマ指定はURIでいいです。ファイル指定のうしろに、shift_JISなど
のencoding名をつけることもできます。

テキストファイルの各文字を検査し、検査結果を表示します。

将来は、RELAX NG, Schematron, OOXML, ODF, HTMLフォームなどから
利用できたらいいなと思ってますが、今後どうなるかは分かりません。

-- 
国際大学
村田 真 <EB2M-MRT@asahi-net.or.jp>

このメッセージにコメントを書く


パスワードを忘れたら

 パスワードを忘れた場合は、メンバー登録した電子メールアドレスを記入して下記のボタンを押して下さい。登録された電子メールアドレスに宛てて、パスワードを通知します。

登録された電子メールアドレス


パスワード変更

 メンバーのパスワードを変更します。

電子メールアドレス
旧パスワード
新パスワード
新パスワード(確認のためもう1回)
(パスワードは半角英数字で。大文字小文字は区別されます)


[サイトのトップ][XMLと文字メーリングリスト メニューページ][ログイン][参加ガイド][新スレッド作成][スレッド一覧][メッセージ閲覧][メンバー登録][メンバー登録情報変更][パスワード変更][パスワードを忘れたら][メンバー登録解除][メッセージ削除][エラーで配信停止したメンバーリスト]

 このリスト板は、ウィルス入りメールなど問題のある電子メールを防止するために、マルチパート (添付ファイル付き) のメッセージに対して、リスト板管理者によるメッセージの事前チェックが設定されています。リスト板管理者が確認後にメッセージは閲覧可能となり、また、電子メールによる配送が行なわれます。

 投稿先電子メールアドレス: xmlmoji@xml.gr.jp

 メッセージを新規に投稿する場合は、この電子メールアドレスへ通常の電子メールを出して下さい。

 本リスト板の管理者電子メールアドレス:autumn@piedey.co.jp

 どうしても分からないことは、管理者に問い合わせてください。


List-Tei Iconりすと亭 (List-Tei 4.25.0) Copyright (c) 1997-2006 by Pie Dey Co.,Ltd.