2007-12-21 Kissing the christmas killer
■[雑記] 第十回 XML開発者の日に行ってきた。
今年も行ってきたでよ。
村田さんあいさつ
- XMLが97? 98年に勧告になって10年で10回くらい
- 今回もdeepな話でみんな楽しみにしてるでしょう。
- 昼休みにたべるところは近くに何箇所かあります。
- 発表中の突っ込み歓迎
- 2番目の発表者は面の皮が厚いのでぎったぎったにしてあげてください。
源氏物語の世界 再編集版 by 宮脇文経さん
村田さんによる紹介
- 思い入れは今回の発表の中で一番強いのでは?
元は趣味で作成していたもの。
- コンテンツの拡張をしようとして、IPAに提案した後でXMLでやろうと決めた。
採択の経緯
目標
- V1でHTMLで整備されたものがちょっとあった。
- 第三者が追加できるようにするところがV2以降の新機能
V1:HTML版の機能
V3:XML版の機能
実演と説明
- IEにしか対応していないからIE限定の機能を使っているよ。
- tableの各カラムの幅も指定できるよ。
- 変換はクライアント側でやるからセキュリティの警告が出てしまいます。
- 俺:朗読が「すみこさん」ってあったけどにしおかすみこかなぁ。どきどき。
- 基本PHPとHTMLとJavaScriptです。
HTAコード説明
- HTAなのにEUCだからいろいろ不思議です。
- XMLやXSLはJavaScriptでxmlLoadでロードします。
- データの埋め込みはscriptタグのtype="text/xml"でやってるよ。
- xmlLoadしたデータと埋め込まれたデータをひとつのXMLにして、XSLTで変換して保存している。
開発の振り返り
- XSLTの中でmsxsl:scriptっていう非標準タグを多用しているのでよくないよね。
- シンタクスはXSLT、セマンティクスはJavaScriptにしてしまった。
- もうちょっとXSLTでがんばるべきだったかも。
- 一番苦労したのはルビを振ったり注釈部分を赤くしたりのところ。
- タグの挿入がXSLTでどうしてもうまくできず、JavaScriptになってしまっている。
- 何種類かの注釈が重なるとうまく階層構造にならないとか。
- やっぱり標準でXSLTにJavaScript書けるようにしてほしいな。
- シンタクスはXSLT、セマンティクスはJavaScriptにしてしまった。
- XSLTのデバッグができる素敵なツールないかな。
- msxml:scriptタグ内のJavaScriptとかもう最悪。
- やっぱり標準じゃないからじゃろか。
- msxml:scriptタグ内のJavaScriptとかもう最悪。
- PHPとかASPとかJSPは文字列埋め込みとか楽チンでいいねぇ。
- namespaceわかんね。
- XSLTのエラー処理ひどすぎ。
- 書きたいよう
- 宣言すりゃできるよ。
- マジで? 後で教えてください!
- 宣言すりゃできるよ。
質問
- 村田さん
- 回答
- 熊本大学 大島さん
- 回答
- はい。
- 大島さん
- はじめの質問の小林さん
- 回答
- そういうのを自分で作ってやってます。
- 大島さん
- 元テキストもあるからなんかできそうですね。
- juliusの関係者の人(京都高度技術研究所の山田篤先生(?))
- 音声認識で言うアラインメントとかいう言葉だが、音素列を取って比較するみたいなことをすれば、可能。ただし現代日本語風の発音をしてくれていないといけない。
- ブレス、無音区間の情報があれば、精度があがる。
- 実はjuliusじゃなくてjulianというソフトを使う。
- sourceforgeにあるよ。
Parallel Narratology(平行物語論) JustSystem 小林さん
自慢
はじめに
- Parallel Narratologyは造語です。
- 同じことについてほかの人が違うことを言う。裁判の証言とか。
- マタイ、マルコ、ルカを比較している「たいかん表」がある。
- まだHTMLが出てきてないころに聖書の電子化をしてハイパーテキストにした。
- 最近またHTMLにしてみた。
- でも見づらい。
- で、作った。
- 横に並べて見られるようにした。
一般的に展開できないか
並べてみた。
- 意外と対応するところが少ない。
- 男が死ぬ瞬間は対応してる。
- 視線の交換に着目してみた。
- マークをつけて並べて見られる。
- 男の死因についてみんな違うことを言う。
- どうして異なった発言に至ったか
- 視線の交換を見ると…
- 事実は藪の中でわからないけど、視線の交換から受け取った意図の誤解から、自分のプライドとかを守るために違うことをいっているんじゃなかろうか。
- 視線の交換を見ると…
聖書の語彙分析
- それまでの聖書研究と違う結論が出てきている。
山口さんから技術的な話
- STORYWRITER
- 由来
- テキストを置き換えた結果、話がつながるように書き換えて見たくなりませんか?
質問
- アドビシステム 山本さん
- 回答:小林さん
- さっきいい足りなかったことを言ってくれた。
- 将来的には「読む」と「書く」がシームレスになって、じゆうに
- くにしまさん(白いセーターに赤シャツの人)
- 回答:山口さん
- できません
- さらに
- そこを何とか
- 回答:小林さん
- 村田さん
- 無理です。
構造化文書と符号化文字 ジャストシステム 小林さん 改め Lawrence Kobayashi-san
はじめに
ルビタグでの失敗
外字問題
- 符号化文字集合に含まれていない文字
- 新しく作る
- 図形で扱う(JISX 4166)
- 符号化文字集合で区別できない2つの字形(吉の上が士と土とか)
- 例外処理で符合を増やす
- 枝版として区別する
- 図形情報を追加する
CharacterとGlyphの違い
VistaのJIS2004問題
- JIS X 0208:1978とJIS X 0208:1983で混乱した。
- 森鴎外の鴎のバツカモメとシナカモメが変わった。
- 表外漢字字体表が出てきた。
- 表外漢字字体表の完成を待たずにJIS X 0213:2000を発効した。
- JIS X 0213:2004が出てきた。
- ジャストシステムは一太郎ですぐに対応
- MSはOSの切り替え(Vista)を待たざるを得なかった。
日本語サブレパートリー
- 自国と関係ない部分を無視して関係あるところだけUnicodeから切り出すのがサブレパートリーという機能
- 日本語サブレパートリーは勝手に足したり引いたりしている。
- CP932(JIS X 0208+α:丸付き数字とか)をCOMMON JAPANESEとして入れた。
- 村田さん:コレクション? CLDRではない?
- コレクションです。
- 10646で見られるので0208も
Valiation Selector
- Glyphの区別の仕組み
- すんなり企画に入った。
- Adobeが字形のためにプライベート領域を使いたいという提案があったためけど、プライベート領域をパブリックユースで使われると困るのでこれを使わせることにした。
- ただし登録制とした。
- 登録一号がAdobeのAJ1-6
アドビシステムズにおけるIVSへの取り組み アドビシステムズ 山本太郎さん
はじめに
- 20年位前に事務機械工業会か何かでSGMLのなにかの翻訳とかをやってわけがわからなくなった。
- JISの例示字形の変更にも苦労させられた。
IVS(Ideographic Valiation Sequence)
登録
- http://www.unicode.org/ivd
- 基底文字の追加が必要ないくつかを除いて登録された。
文字セット
- Adobe−Japan1-0〜6まで、どんどんいろんな業界で使われる異体字や記号など追加して拡張されていった。
- 5、6ではJIS X 0213:2000、U-PRESS対応みたいな最近の文字コード関連の対応。
- ねずみ色タートルネックの人:U-PRESSの対応はどうなってるの?
環境整備
ジャストの人からデモ
- 芦田さんは芦屋のお嬢さん。
村田さんから一言
- 45分押してるんだYO!
XML時代のInput Method ジャストシステム 舛形(ますがた)さん
XML時代?
- 勝手にタイトル決められたんだYO!
- 情報はXMLで表現する時代。
- 情報はXMLであると期待する時代。
- 情報はXMLでなければならない時代。
なぜ?
それだけじゃないよね
人が書く
InputMethodで書く
- いくらワープロ感覚でもまだめんどい。
- 変換したときに「6時から」とあったらdtstartだろと。12/10のエントリだとか12/21って直前にあったとか午前とか午後とかは変換候補のひとつだと。
- お店を入れたらそのwebサイトとか地図とか。
XML-IMで入力すると
- 楽チンになる
- 知らない人にもXMLを入力させられる。
- 間違いの指摘とかもIMだったらできるよね。
実装の話
固定観念
まとめ
村田さんから一言
- 続けていこう。まいてくよー
XML-IMでタグ付けされた文章を使う例 東京大学 熊谷さん
背景
- 自分に関する情報がたくさんあるけど管理や活用ができてない。
- いろんなことをしてくれる秘書さんを作りたいよ。
- 自分の情報は自分で集めて管理しよう!
課題
デモ
- ブラウザ上のタグ(microformatsなど)のついた文章をコピーして、クリップボードにappendしていく(コピーじゃなくて追加コピーなのがポイント)。
- 一覧するとそれぞれの場所のgoogle mapが出るよ。
- それだけじゃつまらないから経路も出せるよ。
- 経路検索エンジンは自作です
- そのままblogにアップしちゃうよ!
- KMLで吐き出してgoogle map上で使うこともできるよ!
メリット
- 使う側も管理者側もいろいろあるよ。まいてるよ。
展開
課題
まとめ
- XML-IMが普及すればうれしいと思うよ!
質問
- 村田さん
- まいてくれてありがとう!
- 同じものでも入れたいタグが違う場合どうする?
- hCalendarとgoogle Calendarのタグとか。
- 回答:舛形さん
- その辺の吸収するために候補を人に選択させるようにしています。
- 村田さん
- アプリのほうから入れられるタグを提案できるような仕組みが合ってもいいかもね。
OOXMLの投票結果とballot resolution meetingの予測 国際大学 村田さん
はじめに
- 泥臭いです。
- 若い人は真似しないでください。10年来の知人を信用できなくなります。
OOXMLへの批判
投票結果
Ballot Resolution Meeting
- ODF、知的所有権の話はされない。
- 文面の修正つながることだけ。
- それ以外は議長に止められる。
- ODFとの関係が気になるところはどうすればいいか
- Noに投票し続ければいい。
もめる?
- もめる要因の話(ODFの話とか)は一切されないし、されそうになれば議長が止める。
議長
準備中
- 各国のコメントに制定母体が回答を準備中。
- 回答が難しい話はBRMで議論する。
- 簡単なところは回答がもう来てる。
- ECMAは各国のコメントを公開してはいけないというルールがあるので非公開。
- 各国が独自に公開するのはOK
制定している人たち
- MSの人が多いけど、そうじゃない人も多い。
- コメントには真摯に対応している。
SC34
- 最終的にはODFもOOXMLもSC34にくる。
- 日本は幹事なので割と権限がある。
ODFの欠陥
- JISにするため翻訳したりしているところでいろいろ見つけた。
- 報告もしてる。
- 100の単位で意味不明なところとかある。
- そのうち正誤表が出るのかな?
OOXMLの欠陥
- 大きいので1000以上あるはず。
- 直せるんじゃろうか。
拡張
- どうなるの?
ODFとOOXMLの両方を考慮する活用
- DIN(ドイツ)でやってる
- 相互変換とか、変換して戻したときの欠落をさせないとか。
個人的意見
- オフィス文書交換の規格なんてうまくいかないと思ったけど、2つも出てきて一応はどちらも動いてる。
- 出ないよりはいいよね。
- もともとXMLだってSGMLと矛盾してるし。
- RELAX NGだってXML Schemaと矛盾してるし。
質問
- アンテナハウス 小林さん
- BRMの結果の判定はどうするの?
- 回答
- 一つ一つのコメントに対して、修正内容が出て、のめるとかのめないとかになる。
- 全体としての合意は一切されない。最終的には各国が自分で賛成するか反対するか。
- ジャスト 小林さん
- 会議中に発言したのは?
- 回答
- リコー yoheiさん
- AppleはどうしてODFじゃなくてOOXMLなのか
- 回答
AtomPubの概要説明とInteropの結果報告 NTTコミュニケーションズ 朝倉さん
はじめに
- タイトルは事務局に指定されたんだYO!
- だから勝手に変えました。
- 会社名の「ズ」を落とさないでね。
自己紹介
- NTTグループ内のR&Dセクションで標準化活動くらいまでやってるよ。
積み重ね
- TCPの上にHTTP、その上にXMLでさらにその上にAtom、AtomPubが載ってるよ。
- インパクトのあるのはAtomPubのほうじゃろうか。
- RFCも5000番台になりました。
AtomPubとは
インパクト
AtomPubのさわり
- CollectionとMember(リソース)と。workspaceはあんまり意味がないのかな。
- リソースのCRUDができるよ。
- CollectionはFeedだよ。MemberはEntryだよ。
- 具体的なコード例は朝倉さんの発表資料を見てくれ。
- CollectionにEntryをPOSTすると追加されるよ。
- 画像みたいなEntry文書にならない文書はMedia Link EntryっていうリンクだけのあるEntryで扱うよ。
簡単だね!
- いろいろ考え始めるとはまるところもあるよ。
- CollectionにCollectionをPOSTするみたいなはまりどころはAtomPubでは未定義。
相互運用性重要。
- どこか1社の独自仕様が広まっていく幸せな時代は終わった。
- 標準化なんて無駄だよ。
- 重要なんです。
IETF
- 企業が実装を伴いながらde-factoを作っていく。
- XCap知ってる?
- ぜんぜん畑違いのところでXMLが使われてる。
- 村田さんも知らなかったらしい。
- XMLの操作言語?
- 複雑なんだけど通っちゃってどうなんのかね。
IETFでの攻防
- Slug ヘッダ
GoogleでのInterop
- Joe Gregorioすげぇ。
- Joe ChengのWindows Live Writer作ってる。すごいよ。
日本でもやった。
- 少ないYO!
- もっとおいでYO!
まとめ
- 実装と標準が両方ないとだめだよね。
- 応用に進むのかな?
- 相互接続試験、声かけてくれればまたやりますよ。
最後に
- 会社の戦略に影響を与えながらがんばってる人多いよ。
- 新しいことをやるとき大変だけど、たまに拾ってくれる人もいるよ。がんばれ。
- 足りない部分を拡張したり。
質問
Atomの拡張の検証方法 村田さん
たとえば
- たーくさんあります。
- 例も見せてくれました。
- gdataとかgCalとかOpenSearchとか。
- AtomFeedに見えるけど、実はGoogleカレンダーのデータです
- sageでも読めます。
Google Calendar
- Atom + OpenSearch + Gdata + Google Calendar
- Geo RSSやYahoo Mediaもはいるはず。
拡張のスキーマ
スキーマの書き方
- 一枚岩でがんばる
- NVDLを使う。
NVDLの動作デモ
質問
- ジャストの小林さん
- NVDLでばらすと何が落ちるのか
- 回答
- 簡単に言うと何がどこにあったかという情報だが、最悪なのはidを参照していたりした場合に終えなくなる。
- さらに
- そういうのを検証したければほかの方法でやれということか。
- 回答
- そうです。全部をこれでやる必要はない。
NVDLによるXML複合文書の配送と再構築 宮下さん
XML複合文書
- いろんなところで使われてるよね。
- 利点
- さまざまな語彙を組み合わせて文書を記述できる。
- 既存の語彙を拡張できる。
- 現実は厳しい
やりたいこと
- 複雑な複合文書をシンプルにして処理したい。
- 出力は?
処理例
- xhtmlを含んだAtomを分割したり編集したり。
- SnRMVはSAXでThreadが暴れまわって大変でした。
- 分割して変更するときに変更されていないものも保持していて、埋めておいた復元ポイント情報を消されても対応できるようにしている。素敵。
- 間違えて消しちゃってもそれなりにがんばってValidなXMLに再構築するよ。
Webアプリの例
今後
- XProcとかに期待してます。
質問
- リコー yoheiさん
- グローバル属性はどうなるの?
- 回答
- おとといの夜に対応しました。
- Virtual Elementとして別にしまわれて何とかなる。
- ジャストシステム 山口さん
- 島の数はあきらめたほうがいいと思ふ。
- ジャストシステム 小林さん
- もともとのgoogle Calendarの吐き出すデータが汚いのに何とかなるわきゃない。
- 回答:村田さん
- AtomとかRSSはRDBに入れるために平たくなってる。そして拡張もそれを踏襲している。なんでXML使うんですかね。これから拡張する人はもっときれいにXML使いましょう。
- ジャストシステム 舛形さん
- 回答
- さらに
- フォールバックの仕組みってあったんでは?
- 回答
- 条件判断とかあったっけ?
- さらに
- なければ「代わりにこれを入れる」が書ける
- アンテナハウス 小林さん
- IDの衝突、相互参照が解決できないってのは何とかなります?
- 回答
- 今はアイデアないけど何とかしたい。
- 濃いグレーのパーカーの人
- 使う人はどうすんの?
- 回答
- メソッド書いてがんばって呼んで。
- さらに
- どっかで刺さると全体がとまる?
- 回答
最後に:村田さん
- 今回は時期が時期なので20人なんて取れないだろうからオフィシャルの懇親会は無しです。ごめんなさい。
- 来年もまたなんかやります。
トラックバック - http://d.hatena.ne.jp/StL/20071221/p1
リンク元
- 34 http://blog.antenna.co.jp/PDFTool/archives/2007/12/24/
- 25 http://blog.antenna.co.jp/PDFTool/
- 12 http://blog.antenna.co.jp/PDFTool/archives/2008/01/22/
- 12 http://reader.livedoor.com/reader/
- 12 http://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&rls=GFRC,GFRC:2007-01,GFRC:ja&q=ピンマイク ドンキ
- 8 http://blog.antenna.co.jp/PDFTool/archives/2007/12/
- 8 http://ohshima.vox.com/
- 8 http://www.catch.jp/blog/desktop/opendocument/a20080124.htm
- 7 http://d.hatena.ne.jp/keyword/XFY
- 7 http://www.catch.jp/blog/