[リストへもどる]
一括表示
タイトルデータベースと公開サイトのUTF-8化に向けて
記事No5438
投稿日: 2012/12/27(Thu) 10:55:25
投稿者富田倫生(点検グループ)
これまで、EUC-JPだったデータベースと公開サイトを、UTF-8に切り替えます。
青空文庫と外部のサービスを繋ぐ情報のパイプとして機能してきた書誌情報CSVは、Shift_JISで提供してきました。
切り替え後も、Shift_JIS版は維持しますが、作り方が変わります。

なにを、いつ頃、どう変えるかと、切り替え後に提供するもののサンプル置き場を、そらもようで示しました。
http://www.aozora.gr.jp/soramoyou/soramoyouindex.html#000423

CSVを利用している皆さん、お目通しをお願いします。

タイトルRe: データベースと公開サイトのUTF-8化に向けて
記事No5439
投稿日: 2013/01/02(Wed) 17:23:16
投稿者たかはし
今年もよろしくお願いいたします。

Shift_JIS版「公開中 作家別作品一覧:全て(CSV形式、zip圧縮)」は影響を受けますか?
サンプルデータで試してみましたが特に問題はないようです。

タイトルRe: データベースと公開サイトのUTF-8化に向けて
記事No5442
投稿日: 2013/01/03(Thu) 23:26:01
投稿者おかもと
「そらもよう」に掲載されているサンプルデータ、拝見しました。

これまでShift_JIS版を使っていた人には、

> 「―」は「―」に、「~」は「〜」にして出す

ほうが、混乱が少ないのではないかと思います。
また、「-」も「−」のほうがよいと思います。
(Ⅰ 以降のローマ数字も……)

# これまでのShift_JIS版は、実質的にはCP932だったので、UTF-8からShift_JISに変換するのではなく、UTF-8からCP932に変換したほうがよいのでは、ということです。

-------------

それから、「公開中 作家別作品一覧拡充版:全て(CSV形式、zip圧縮)」
http://www.aozora.gr.jp/soramoyou/list_person_all_extended.zip

を展開して出力される list_person_all_extended.csv の2289行が、文字化けしています。

> 「闕相w院雑誌 第五十三巻第一号」

正しくは「国学院雑誌」で、他の部分(例えば2193行)は文字化けしていないので、たまたま変換ミスだったのかもしれませんが、本番ではこうしたことが起きないよう、ご確認いただければと思います。