2009
5/9
|
このコラムと動画を見てこれは便利になると思ったので作ってみた。やはりものすごい便利。ニコニコ動画関係のみならず、アイマス・東方・VOCALOID・その他エンターテイメント関係のブログ等を書いている人なら、もっと便利に使えると思う。
ダウンロード
使い方
nicoime.zipを解凍すると以下のテキストファイルが入っています。
- nicoime_atok.txt (ATOK用)
- nicoime_msime.txt (MS-IME・Google日本語入力用)
お使いのIMEに対応するファイルを読み込ませて下さい。
おことわり
- zipの解凍方法および、テキストファイルをIMEに登録する方法については、そのIMEのヘルプを見るなりググるなりして調べて下さい。
- 登録の際弾かれてしまう単語がどうしてもいくらか出ますが仕様です。
- 当然ですが、データの権利は有限会社未来検索ブラジル・株式会社ニワンゴにあります。万一運営にやめれ言われたらやめます。
- もちろん、アイデアも元の動画の人そのままです。
実作業数十分のスクリプトで出しゃばるのも何なので、動画作者の気が変わって公開するようならアイデア尊重して引っ込みます。大百科の掲示板で了解いただきました。
解説
- ニコニコ大百科からrubyスクリプトで自動生成した辞書。
- 読みが一文字の項目は無視している。
- 「……の一覧」「……のサムネ画像集」など辞書っぽくない項目を無視している。
- 誤変換指摘のためのリダイレクト項目をそのまま取り込むと誤変換してしまうという問題は対策ずみ。具体的には「同一の読みが他に存在するリダイレクト項目は出力しない」ことで対応。
- その他幾つか思いつきで操作を入れている。
- 品詞分けはどう考えても無理なので、全部「固有一般」または「固有名詞」になっている。経験上IME登録単語の品詞分けにそこまでの重要性はないし、実際に固有名詞がほとんどなので大きな問題はないはず。
お願い
- 現実的に可能な改善点や要望などありましたらお気軽にどうぞ。導入するかもしれません。
- 定期的に最新版を作る仕組みになっていますので、ニコニコ大百科のHTMLの記述方式が変わったりすると壊れる可能性が高いです。明らかに壊れていると思われる状態を見かけたら、メールなりコメントなりで知らせていただけるとありがたいです。
2009/11/18追記
- 読み一覧ページへのページャ導入に対応しました。
- 取得ページ数が72程度で済んでいたところが、1550程度と大幅に増えてしまったため*1時間的に負荷分散することにしました。
- わざわざ変更をお知らせいただきグニャラくん ★様
あいつがいまーすありがとうございます。 - 「ありがとうございます」→「あいつがいまーす」の変換を排除しました。
2010/03/07追記
- Google IME用の辞書を追加しました。
- 日時のみ・数字のみなどの項目を排除しました。
- 他いくつかの微調整を追加しました。
2010/10/15追記
- 「みえた」→「見えた!」および「だいじょうぶか」→「大丈夫だ、問題ない」の変換を排除しました。
2010/12/18追記
- 現時点ではGoogle日本語入力の10000語制限はなくなっているようです。MS-IME用ファイルをそのままインポートできます。
2012/08/16追記
以下の変換を排除しました。
- イマ→いま!
- アリガトウゴザイマス→ありがとうございます!
- オネガイシマス→動画でやれ
- オーケー→削除されたくなかったらマイリスしろ、ok?
*1:もちろん個々のページは小さくなっているものの。
おまけ
kamS(なぜか変換できた)さん新作。超級者向けと呼ばれるだけのことはあるセンス。
“ニコニコ大百科IME辞書”へのコメント 37
コメントする
この記事へのトラックバック
http://tkido.com/blog/1019.html/trackback- 人工無脳について考えてみた » blueskisのブログ
[...] ニコニコ大百科IME [...]
MS-IME版を追加しました。理屈では問題ないはずですが、
自分の環境からはMS-IME排除していて確認できないので、
ちゃんと読めて登録できて動いたという人がいたら一言
報告いただけると嬉しいです。
すいません。自動更新機能の副作用でまた若干形式がかわりました。
この投稿の時点からATOKとMS-IME双方で動作報告があれば
ひとまず完成です。
sm6899035の投稿者です。
nicoime.zipを試しましたが、うまくいきませんでした。
MS-IME固有の事象かもしれませんが、
読みがながカタカナだと受け付けてくれないようです。
(ひらがなに直して登録できることを確認)
私は以下のコードで読みをひらがなに直して辞書を作成していました。
yomi = yomi.tr(‘ァ-ン’, ‘ぁ-ん’)
ありゃ、そうですか。
うちのMS-IMEをわざわざ復帰させて試してちゃんと読んでいたので、
じゃああえて一手間増やさずカタカナでもいいかと思ったのですが……。
バージョンは何ですか? うちはMS-IME2007でした。
どちらにしても対応しないといけないと思いますが。
読みのひらがな化対応しました。
IME2003でのエラーログです。
====================
! 指定された単語/用例は既にシステム辞書に登録されています。
あかばねせん 赤羽線 固有名詞
(中略)
! 指定された単語/用例は既にシステム辞書に登録されています。
ろれっくす ロレックス 固有名詞
>Naohiro19さん
報告どうも。長すぎるので(中略)させてもらいました。
これは単に一般的な辞書にも入っているような単語に対して
「すでにあります」という報告になっているだけなので、
問題ないです。
後に大百科記述方式の変更があったとき
対応しやすいようにリファクタリングしました。
同時にいくつか自己満足レベルですが細かい改善を入れました。
「一覧」の排除強化
「リンク集?\z」の排除
「シリーズ\z」シリーズの文字削除
「(放送主)」などの括弧削除
「かっこ○○かっことじ」など読みにかっこが入る括弧削除
「有限会社・株式会社・(有)・(株)」など削除
これでいったん放置に入ろうと思います。
辞書ファイルの公開、大変助かってます。ありがとうございます。
細かい改善後のファイルですが、テキストファイル一番先頭の「生放送主」だけ
よみがな部分がないようです。
些細な点ですが一応報告しておきます。
>名無しさん
どうもです。その件対応しました。
いつもお世話になっています。
突然ですが要望があります。
「ア?ニメ」や「ゲー?ム」、「公?式」のような0幅unicode文字列が含まれる変換結果を除去していただけないでしょうか。
自分で使う際には発見次第削除しているのですが、更新するたびに復活してしまうので、できれば対応していただきたいです。
>MAKAさん
情報どうも。対応しました。
その話はまったく認識してませんでした。
どういう理屈で入ってるものなんでしょうね。
ニコニコ大百科の読み一覧ページにページャを導入しました。
というわけで、取得の際にちょっと工夫が必要になったと思います。
>グニャラくんさん
おおお! わざわざお知らせいただきありがとうございます。
一瞬ついにやめれ言われたかと焦りました(笑)。
近々対応させていただきたいと思います。
ニコニコだと変な変換もあるから
それの応用ではてな版作れたりしませんか?
できれば、
GoogleIME用もお願いします
→http://www.nicovideo.jp/static/atok/
こんなのができました。
名前を打つ時(生配信者)とかが邪魔な気が・・・
あとゴミぽいのがまだありますね><
Google IMEには、MS-IME用のがそのまま使えるみたいだ。
(ただし10000行までしか読み込めないので分割しないといけない)
これをあらかじめ分割しておくようにすることは
そんなに難しくないので、次に機会があればやる。
またGoogle IMEでは、キーボードから
入力されるのはカタカナのヴ。
しかし、辞書の方で読みを「ヴ」で入れていても
「機種依存文字の一文字でひらがなのう゛」に
変換されて登録されてしまうようだ。
なのでヴが絡むものはうまく変換できない。
Google IME自体の仕様が変らない限り、
これをこちらで回避する方法はないように思われる。
google日本語入力の追加ありがとうございます。
わざわざ、毎回分割していた手間が省けました。
はじめまして。素晴らしいアイデアですね!
Macユーザとしてはことえりバージョンがあると、泣いて喜ぶのですが・・・
なんだか公式の方で生放送主記事の隔離があったみたいだ。
今見た感じでは、生放送主名の単語がなくなる以外の
副作用は出てないようです。
>もしもしもさん
これ以上の辞書形式対応はたぶんなさそうです。
おそらくどれかの形式の検索→置換ぐらいで
どうにかなりそうな気がしますが無理でしょうか。
GoogleIMEについては前々のアップデートで辞書の分割が不要になったようなので、1ファイルにまとめても大丈夫かと思われます。
え、ほんと? 開発版じゃなくても?
だったら対応した方がよさそうだね。
よく考えたら制限なくなったなら、
普通にMS-IME形式をインポートできるんじゃなイカ?
「ニコニコ大百科IME辞書」を予測変換したいがために「ニコニコ大百科IME辞書」の記事を作りましたので一応報告をば。
SKK辞書形式に変換するスクリプトを作ってみました(URL欄)
おねがいします→動画でやれ
というひどい変換を発見したので今度機会があったら
除外する予定。似たようなケースあったら教えて下さい。
単語コメントに「ニコニコ大百科」とか入れると分かりやすいと思う
これは便利
ありがとうございます
すごい、全部一発変換できちゃ〜う
ATOKでは、省入力データにした方が便利です。
数文字で(既定では4文字)でポップアップが表示され、Tabキーで候補が選べます。
省入力データと変換辞書は独立しているため、「ニコニコ大百科で変換」「通常通り変換」という使い分けができます。何より、文書作成中に思いも寄らぬ候補が出てこないのが最大のメリットです。
アクセス数や人気順で抽出単語を絞ることが出来れば、辞書としても使いやすくなるのですが…。
@付き変換があれば誤爆もなくて良いと思うんだ
>34
@付き変換というのが何のことかよくわからなかったのだけど、
下で言われているもの(のようなこと)と思えばよい?
2ちゃんねる顔文字辞書・2chアスキーアート・AAアイコン素材 MatsuCon – 顔文字辞書ダウンロード
http://matsucon.net/material/dic/
要望
項目の全角英数字を半角英数字に変換してほしいです。
読みの ゎ・ゐ・ゑ を わ・い・え にしてほしいです。
>36
項目の変換は顔文字・AAなどに影響与えたりしませんかね?
検討します。
すっ→おさとうゆっくり
とかの全く変換の役に立たない読み遊びの補正をしたいけど、
これは自前のリスト作るしかなくなるからしんどいかなあ。