[リストへもどる]
新着記事

タイトルRe: データベースと公開サイトのUTF-8化に向けて
記事No5442   [関連記事]
投稿日: 2013/01/03(Thu) 23:26:01
投稿者おかもと
「そらもよう」に掲載されているサンプルデータ、拝見しました。

これまでShift_JIS版を使っていた人には、

> 「―」は「―」に、「~」は「〜」にして出す

ほうが、混乱が少ないのではないかと思います。
また、「-」も「−」のほうがよいと思います。
(Ⅰ 以降のローマ数字も……)

# これまでのShift_JIS版は、実質的にはCP932だったので、UTF-8からShift_JISに変換するのではなく、UTF-8からCP932に変換したほうがよいのでは、ということです。

-------------

それから、「公開中 作家別作品一覧拡充版:全て(CSV形式、zip圧縮)」
http://www.aozora.gr.jp/soramoyou/list_person_all_extended.zip

を展開して出力される list_person_all_extended.csv の2289行が、文字化けしています。

> 「闕相w院雑誌 第五十三巻第一号」

正しくは「国学院雑誌」で、他の部分(例えば2193行)は文字化けしていないので、たまたま変換ミスだったのかもしれませんが、本番ではこうしたことが起きないよう、ご確認いただければと思います。

タイトルRe: ケヶ問題
記事No5441   [関連記事]
投稿日: 2013/01/02(Wed) 20:02:41
投稿者土屋
> ちいといつ@昼寝部‏@titoi2
> @aobeka ありがとうございます。ヶについては色々な解釈があると思います。ただ、既に片仮名と分類されているコードを用いる上では、本来の意味はともかく片仮名として扱うのが自然だと思います。私のアプリでは漢字として扱えるようにただいま実装中ですが @koueihei

「既に片仮名と分類されているコードを用いる上では、本来の意味はともかく片仮名として扱うのが自然だと思います。」
普通の神経を持っていたら、当然そう思うでしょうね。

> ちいといつ@昼寝部‏@titoi2
> @aobeka ヶが漢字なのか片仮名なのかは解釈次第というのが私の見解です。ならばスタンダードに従っておいたほうがトラブルが少ないというのがソフト屋としての経験論です。ですが、特にこだわりがあるわけでは無いので青空文庫では漢字とみなすという決めがあるなら従います。

一般論として「ヶ」にいろいろな解釈があるとしても、
JISの解釈に「いろいろ」はありません。JISの規定が“解釈次第”だったら標準規格の役割を果たせません。
JISでは「ヶ」は小書き片仮名ケです。この規定は、小さな「ヶ」を表示しなさい、とパソコンやプリンタなどのメーカーに求めているのであって、利用者の用途を制限するものではありません。

タイトルケヶ問題
記事No5440   [関連記事]
投稿日: 2013/01/02(Wed) 19:44:49
投稿者土屋
> 富田倫生‏@aobeka
> 【青空文庫便り】@横から失礼。まず文字の実態に即して、片仮名のケのような形で、コ、カ、ガと読み分けるものは、漢字と考えました。次に文字コードに移って、JIS X 0208:1997規格票は、その字を5-86(ヶ)にあてていると読みました。 @titoi2 @koueihei

富田氏だけの異常な解釈で、明白な誤りです。
JISは5-17「ケ」は片仮名ケで、5-86「ヶ」は小書き片仮名ケである、と規定しています。
また、JISは文字の意味や用途を定義しないと宣言しており、
「コ・カ・ガ」と読む用途の字を5-86(ヶ)にあてているという富田氏の解釈は、JISの記述と矛盾します。

JISは工業規格であり、工業製品を作るための仕様書です。JISの規定は、
 5-17のコードが与えられたら、片仮名ケの「ケ」を表示し、
 5-86のコードが与えられたら、小書き片仮名ケの「ヶ」を表示する、そういう装置を作りなさい、
と装置の“メーカー”に求めているのであって、その字を装置の“利用者”がどう使うかは、JISの権限外のことです。
利用者が「一ケ月」「龍ケ崎」と書くことに、JISがケチをつけるということはあり得ません。

> 富田倫生‏@aobeka
> 【青空文庫便り】A作業中に生じたある疑問をきっかけにメーリングリストで検討を重ねる中、こうした立場でこの字をみるべきだろうと考える人が優勢となり、それにそって作業方針をたてました。 http://www.aozora.gr.jp/KOSAKU/small_or_large/guide_line.html … @titoi2 @koueihei

「こうした立場が優勢となった」という見解にも富田氏のごまかしがあるのですが、その話はまたいずれ。

> 富田倫生‏@aobeka
> 【青空文庫便り】B同規格票の「解説 3.14」の記述、 > http://attic.neophilia.co.jp/aozora/task/small_or_large/2007_list.html#nyuryoku … 原案作成委員会WG2芝野耕司委員長の編んだ字典の記述からみて、この方針は間違っていないと私は思います。 http://attic.neophilia.co.jp/aozora/task/small_or_large/2007_list ..... characters … @titoi2 @koueihei

これが富田氏のペテンであることは、何度も繰り返し指摘しています。
http://book.geocities.jp/oroorowalk/ke_noyoni.html

JISの規定ではない「解説」の記述をとり上げて「ヶ」は漢字だと主張し、
JISの規定で「ヶ」を片仮名に分類し、KATAKANA LETTER SMALL KE という名前をつけていることは無視するというのは、ご都合主義というほかありません。

> 富田倫生‏@aobeka
> 【青空文庫便り】Cこれが、青空文庫の「ケヶ問題」と言われているものです。「芝野さんはどう判断しているか直接聞きたい」という求めが反対する人たちからあって、講演をお願いしたりもしました。 http://www.aozora.gr.jp/shibano/ @titoi2 @koueihei
> 富田倫生‏@aobeka
> 【青空文庫便り】D話の流れとしては、JIS X 0208を作る時に、漢字であるものを片仮名においてしまった。1997改訂時にそれは誤りで、漢字は5-86(ヶ)だとした。だから、文字コードとしては、コ、カ、ガと読むものは、「ヶ」。 @titoi2 @koueihei

まるで、芝野氏がそんな話をしたように書いていますが、富田氏の捏造であって、芝野氏はそんなこと全く言っておりません。
芝野氏が言ったことは、芝野氏自身がまとめている通り、
hhttps://sites.google.com/site/shibano/aozora-bunko-kouen-shiryou
Googleの日本語出現頻度データで、「一ヶ月/一ケ月」「阿佐ヶ谷/阿佐ケ谷」のような(ヶ|ケ)を含む用例を抽出したら、
「ヶ」の方が多かったから多数決で「ヶ」の勝ち、ということでしかありません。
芝野氏の話は、JISの規定とも、「底本忠実」の青空文庫の方針とも、何の関係もありません。

> 富田倫生‏@aobeka
> 【青空文庫便り】Eただし、タイポグラフィーの世界では、ケに似た漢字は、並みにも小さくも作られてきた。今も、「大きく」の求めはあるだろうし、こたえるには「ケ」をあてるのだろう。である以上、この字に対する違和感と混乱は、なお続く気がします。 @titoi2 @koueihei

それを混乱というのなら、人によって「フイルム/フィルム」と書くのだって混乱です。
「ケに似た漢字は、並みにも小さくも作られてきた」のは表記の揺れの問題であって、ケヶに限ったことではありません。

> 富田倫生‏@aobeka
> .@titoi2 「いったん名前をつけて分類した以上、その規格における当該文字は、名前の表すものだ」とする立場があろうかと思います。これに関連することを、小林龍生さんが「ユニコード戦記」で書いておられます。文字コード規格における名前とは、「じつは何の意味もない」のだと。

これも小林氏が言ってることをねじまげて、自分の都合のいいように解釈しているだけです。
仮に「ヶ」の「KATAKANA LETTER SMALL KE」という名前に意味がないのだとしても、「片仮名」に分類していること、には規格上の意味はあります。
そうでなければ、JISが
 3-33「A」を「ラテン文字」に分類して「LATIN CAPITAL LETTER A」という名前をつけ、
 6-01「Α」を「ギリシア文字」に分類して「GREEK CAPITAL LETTER ALPHA」という名前をつけていることも
「じつは何の意味もない」ことになり、それも富田氏の主張と矛盾します。

> 富田倫生‏@aobeka
> .@titoi2 青空文庫の論議で、「コ、カ、ガと読み分けるものが、表音文字か? 漢字だろう」という話は出ました。ただ、方針とすると決めたのは、1997規格票が「漢字。この規格では5-86」と書いていると判断したからです。規格のよりどころは規格票だと。しつこくてすみません。

繰り返しますが、JIS規格票にそんなことは一行たりとも書いてありません。富田氏のデマです。

タイトルRe: データベースと公開サイトのUTF-8化に向けて
記事No5439   [関連記事]
投稿日: 2013/01/02(Wed) 17:23:16
投稿者たかはし
今年もよろしくお願いいたします。

Shift_JIS版「公開中 作家別作品一覧:全て(CSV形式、zip圧縮)」は影響を受けますか?
サンプルデータで試してみましたが特に問題はないようです。

タイトルデータベースと公開サイトのUTF-8化に向けて
記事No5438   [関連記事]
投稿日: 2012/12/27(Thu) 10:55:25
投稿者富田倫生(点検グループ)
これまで、EUC-JPだったデータベースと公開サイトを、UTF-8に切り替えます。
青空文庫と外部のサービスを繋ぐ情報のパイプとして機能してきた書誌情報CSVは、Shift_JISで提供してきました。
切り替え後も、Shift_JIS版は維持しますが、作り方が変わります。

なにを、いつ頃、どう変えるかと、切り替え後に提供するもののサンプル置き場を、そらもようで示しました。
http://www.aozora.gr.jp/soramoyou/soramoyouindex.html#000423

CSVを利用している皆さん、お目通しをお願いします。

タイトルRe: 「青空文庫」はアブナイ
記事No5437   [関連記事]
投稿日: 2012/12/25(Tue) 11:46:07
投稿者ブレンドコーヒー
「青空文庫」はアブナイから引用

昨日から、多くの誹謗中傷脅迫メールがきていて、少しまいっています。正直、もう、「青空文庫」とは関わりたくないです。(中略)たぶんこういうのって、教祖様のあずかり知らぬところで末端の信者が勝手に暴走している、ということだと思いますが。それか、アンチ青空文庫の人のいやがらせか。どっちにしろ、かなりひどい内容で、今こうやって冷静ぶって書いてますが、奥歯ギリギリしてます折れそうです。)

こういうのって、この人にかぎったことじゃないです。青空文庫を批判したら、いやがらせや誹謗中傷、脅し、いろいろなことをやってきます。こういう陰湿な恫喝者的サポーターに支えられているということも青空文庫の歴史本に刻み込んで欲しいネ。

タイトル「青空文庫ものがたり」
記事No5436   [関連記事]
投稿日: 2012/12/25(Tue) 09:20:37
投稿者富田倫生(点検グループ)
夏目や芥川や、太宰のファイルが置いてある。年明けには、吉川英治や柳田国男が加わるらしい。何にでも使えて、お金はかからない。
誰が作っているんだろう。なんのために。どんなきっかけで。

野口英司、宮川典子「青空文庫ものがたり」を公開しました。
http://www.aozora.gr.jp/soramoyou/soramoyouindex.html#000422

タイトル「青空文庫」はアブナイ
記事No5435   [関連記事]
投稿日: 2012/12/23(Sun) 01:34:53
投稿者土屋
「青空文庫」はアブナイ
http://pinokojack.blogspot.jp/2012/12/blog-post_6582.html#!/2012/12/blog-post_6582.html

「青空文庫」は恐ろしい
http://pinokojack.blogspot.jp/2012/12/blog-post_21.html#!/2012/12/blog-post_21.html
--------
私は必ずしもpinokojack氏に全面的に同調はしない。

青空文庫に間違いがあるのは、間違いの一部を生産している者(私)も認める事実だが、原本に忠実かを問題にするのなら、底本と照合した上で指摘しべきであろう。

しかし、この人も指摘する行頭括弧の一字下げや「ケヶ問題」については、入力者・校正者が底本通りに入力しても、富田倫生氏が勝手に改変し、それに抗議すると、俺様が決めたことに問答無用で服従しろ嫌なら出ていけとのたまうわけ。

自分の都合の悪いことは無視という、富田氏の態度は相変わらず。

>富田倫生 @aobeka
>【青空文庫便り】皆さん。青空文庫のファイルには、誤りがあります。具体的に、どこと指定していただければ、確認し、直せます。先立って、底本と照合していただけると助かります。どうぞ、ご指摘を。改善は、私たちの心からの願いです。

タイトルRe: 青空文庫ビューワアプリ「neo文庫」
記事No5434   [関連記事]
投稿日: 2012/12/19(Wed) 09:23:50
投稿者通りすがり
iPadで、neo文庫を利用している。
他の青空文庫対応ソフトには、自分で用意したテキストを開けるものが多い。一方neo文庫には、青空文庫専用という制約がある。
ただ、青空文庫を読むことに焦点を絞れば、とても良い。
紙の書籍をパラパラめくるような操作は、他のソフトでは見たことがない。目指す場所を探すのに便利で、第一、使っていて気持ちがよい。
注記への対応度が高いのも良い。i文庫が有名で、確かに優れた点も多いが、青空文庫注記への対応度は低い。低いまま、さっぱり改善されない。青空文庫の作品を読むことよりは、PDFやテキストの総合ビュワーとしての機能充実に力点を置いているように思える。
一方neo文庫は、バージョンアップを繰り返して、注記の再現性を高めている。キャプション注記は、非常にきれいにこなしている。
青空文庫閲覧には、neo文庫を常用している。

タイトル青空文庫ビューワアプリ「neo文庫」
記事No5433   [関連記事]
投稿日: 2012/12/18(Tue) 22:20:32
投稿者無名氏
参照先http://ebook.itmedia.co.jp/ebook/articles/1212/17/news060.html
日本語組版処理にこだわりつつ高速なページめくりが可能なiOS向け青空文庫ビューワアプリ「neo文庫」がバージョンアップしたそうです。

 快技庵は12月14日、iOS向け青空文庫ビューワアプリ「neo文庫」のバージョン1.0.5をリリースした。17日までお試しセール価格として170円で販売される(通常価格は450円)。

 neo文庫は、著作権が消滅するなどした作品を無料公開する「青空文庫」のビューワアプリ。こうした青空文庫ビューワアプリは幾つも存在するが、neo文庫はiCloud対応による「続き読み」対応のほか、縦書きの端正な表示と2本指ドラッグでの高速ページ送りなどが特徴。特に日本語組版は、W3Cの技術文書「日本語組版処理の要件」に基づいて、いわゆる青空文庫形式などと呼ばれるXHTMLをルビ、縦中横、欧文、句読点や括弧類の扱いを含めできるだけよい形で表示させようとしている点に好感が持てる。

 最新バージョンとなる1.0.5では長いルビの表示などが改善されている。以下はKindleアプリ(iOS)を用いて同じファイルがどう解釈され表示されるかを示したものだ。ルビの親文字が複数行に分かれないよう表示すると、ルビの方が2行になるような、そんな組版の難しさを少しずつ改善してきている。挿絵表示とキャプションに関する記述書式が柔軟な青空文庫形式のレンダリングは開発者泣かせだが、それらもできるだけ盛り込み、高速にページ送りができるようにしている。

 最近では電子書店でも青空文庫を取り扱うところもあるが、その表示品質にこだわる方は、こうしたビューワアプリの利用を検討してもよいだろう。なお、neo文庫には作家別リストや図書館でおなじみの日本十進分類法で分類されたリストから作品を探すことも楽に行える。