タイトル | : Re: データベースと公開サイトのUTF-8化に向けて |
記事No | : 5442 |
投稿日 | : 2013/01/03(Thu) 23:26:01 |
投稿者 | : おかもと |
「そらもよう」に掲載されているサンプルデータ、拝見しました。
これまでShift_JIS版を使っていた人には、
> 「―」は「―」に、「~」は「〜」にして出す
ほうが、混乱が少ないのではないかと思います。 また、「-」も「−」のほうがよいと思います。 (Ⅰ 以降のローマ数字も……)
# これまでのShift_JIS版は、実質的にはCP932だったので、UTF-8からShift_JISに変換するのではなく、UTF-8からCP932に変換したほうがよいのでは、ということです。
-------------
それから、「公開中 作家別作品一覧拡充版:全て(CSV形式、zip圧縮)」 http://www.aozora.gr.jp/soramoyou/list_person_all_extended.zip
を展開して出力される list_person_all_extended.csv の2289行が、文字化けしています。
> 「闕相w院雑誌 第五十三巻第一号」
正しくは「国学院雑誌」で、他の部分(例えば2193行)は文字化けしていないので、たまたま変換ミスだったのかもしれませんが、本番ではこうしたことが起きないよう、ご確認いただければと思います。
|