pythonと自然言語処理を学ぶ日記

pythonと自然言語処理を学ぶ

5,進捗

設計を明らかにできないし、高度な技術を要するコードを書いてるわけでもないしで、ここで報告することが見つからず、しばらく更新しませんでした。

機械学習を用いたツールは製作に予想以上に人力を要するもので、ここ最近はずーっと辞書型・リスト型に文字列を追加しています。派遣でデータ入力をしてる気分です。全然関数を定義していません。なんとなく居心地が悪いです。

関係ない話をします。

一人ごっつで、松本人志が外人に外国語で話しかけられて日本語で応答するネタがあります。そこで松本が外人に対し「似てね~!」と応答するというボケがあるのですが、ほぼ同じボケを、フォークダンスde鳴子坂がコント中でやっています。医者か占い師のネタだったと思います。どちらが先にやったのでしょうか?

ごっつええ感じで、ルールが想像もつかない競技をするというネタが何個かありましたが(「実業団選手権大会」とか雪山で冷蔵庫を使うネタとか)、ボーボボにも同じようなネタがあります。あれが「普遍性があるアイデアなのでパクリに当たらない」と言えないのなら、私が今作ってるプログラムは倫理的に不当なものになります。同時に9割9分のエンタメコンテンツが不当になります。

最近知りましたが、「まんじゅうこわい」は昔の中国の笑い話の丸パクリです。落語の演目にはパクりが大量にあります。志村けんはミスタービーンのネタをよく丸パクリしていました。

しかしながら、ミスタービーンもs1e1で「歌詞を覚えてない歌をうろ覚えで歌いつつ、覚えている箇所だけ自信満々で歌う」というボケをしていました。それは恐らくミスタービーンがこの世で初めて使ったボケではないでしょう。

このように他のエンタメコンテンツ同様、お笑いもパクり合いな訳です。

既出の要素で金を生み出す事ができる市場があるという事は、地道にデータ入力をして機械学習やマクロを組めば、稼げるという事です。

「テンプレ展開」という用語が一般的に認知されている事がその証拠になっています。

「きらら漫画」は、内容が皆無な事によって需要が生じているという軽薄な市場なので、機械学習が漫画を攻略する際に最初に上陸する地点、ノルマンディーになるでしょう。というか上陸がまだ実施されていない事が不思議です。

日本age・韓国sageホルホルジョークは本当に英語圏で流行っているのか検証

「世界の日本人ジョーク集」みたいな本が売れていますが、日本人の中でもかなり英語圏のジョーク投稿サイトに目を通している私は「Korea」「Japan」が含まれるジョークなどほとんど見た事がありません。

www.fsight.jp上リンク先に載っている

 

問=新型コロナの特効薬は、どうやって開発されるか?

答=ドイツ人が発明し、

  アメリカ人が投資し、

  フランス人がデザインし、

  日本人が小型化し、

  イギリス人が実用化し、

  イタリア人が宣伝し、

  中国人が海賊版を作り、

  韓国人が起源を主張する。

これが実在するかを検証します。まあ実在しないでしょうが。

そもそも英語圏の人間の一定数が韓国に詳しくて、しかも「韓国がよく起源主張をして問題を起こす」事を知っているのか疑問です。アイルランド人が昔「白い黒人」と呼ばれてて、アル中のステレオタイプを付与されている事を知っている日本人がどれだけいるでしょうか?

----

■1:upjokeを調査

upjokeは他のジョークサイト同様、有名なジョークをポストしていいねを得ようとする人が多いので検証材料たり得る。

The 30+ Best South Korea Jokes - ↑UPJOKE↑ 「origin」を含むジョーク0個 「invent」を含むジョーク0個 「Japan」を含むジョーク0個

The 89+ Best Korean Jokes - ↑UPJOKE↑  「origin」を含むジョーク0個 「invent」を含むジョーク0個 「Japan」を含むジョークが5個あるが、どれも日本を称えるジョークではない

■2:reddit/r/Jokesを調査

redditのジョーク系サブレディットは他のジョークサイト同様、有名なジョークをポストしていいねを得ようとする人が多いので検証材料たり得る。

r/jokesを「Korea invented」で検索すると下のポスト一件のみがヒット

Topical Jokes 4/18 : Jokes

しかし含まれるのはデニスロッドマンがNorth"Korea"に行った事に関するジョークだけ

「Korea invent」でも上のポストのみがヒットする

「Korea origin」で検索すると三つのポストがヒットするがいずれも「Japan」は含まれないし起源主張に関するジョークではない。が、下のポストがヒット

4 Passengers were sitting in a plane.. : Jokes

韓国人の投稿者が小学生の時に聞いたジョークらしい。

■3:reddit/r/DarkJokeを調査

「Korea origin」「Korea invent」「Korea invented」いずれもヒットせず

----

おかしいです。このホルホルジョークは

インターネットやSNSで拡散している

のに、有名なジョークをしつこくポストするユーザー達が該当ジョークを一つも投稿していません。他のホルホルジョークについても調べようと思いましたが、どうせ実在しないのでしません。

 

4,進捗、カブり報告

カブり報告

ヒンドゥー教徒のおでこの赤色の点を、スナイパーのレーザーポインターと勘違いする←ファミリーガイがやってました

今 思いついたカブりは上記だけです。

 

pcの回線を止められ、最近あまり勉強ができませんでした。

色々と実験をしているのですが、恐らく私が作るお笑いAIは、あんまり冗談の生成に関して機械学習を使いません。機械学習を主に使うのは、たとえば「冗談と無関係な辞書」を作る時です。しかもその「冗談と無関係な辞書」、つまり上位語・下位語・共起関係語などのデータを大量に収録した辞書は、既にネット上でいろんな人が無料で公開してます。便利ですね。

つまり私が作ろうとしてたものはお笑いAIというかほとんど「冗談に関係しないclass型オブジェクトとdict型オブジェクトを作るための馬鹿デカい辞書」だった訳です。設計をパクられる可能性が出るので詳細は言えませんが、最近はVScodeの画面を見ながら毎日冗談と全く関係ない作業ばかりしています。

ちなみに私は21歳くらいから何故かどんどん日本のお笑いを面白いと思わなくなり、今作っているお笑いAI、もといお笑いプログラムの教師データもほとんどがシンプソンズに出てきた冗談です。芸人を目指してた頃は、M1やKoCのネタを見て笑えない人を完全に脳に問題があると思って内心差別していましたが…ちなみに私はお笑いコンテンツを、「安打数(=面白いと思ったボケの数)/打数(ボケの数)」の打率で計測しています。シンプソンズは今まで見たエピソードに限定して平均打率2割(s16より後のシーズンは含まず)、かもめんたるは今まで見たネタに限定して平均打率4割です。サウスパークは映画含め0割です。

 

話は変わります。お笑いプログラムを作っていて一つ課題を見つけました。

たとえば映画脚本を大量に学習して、売れる脚本を生成するAIがあるとします。

教師データの脚本に含まれる要素のうち、そのAIが「高く評価している要素のセットA」に運用者が何らかの形で干渉しなければ、そのAIは「セットA」をたくさん盛り込んだ、似通った脚本を量産してしまいます(それでもいいかもしれませんが)。

そのため「セットA」のものよりも劣る要素を強制的に脚本に盛り込ませる等の対策が必要かもしれません。こういう課題が私に起こっています。

また、教師データを部分的または完全に無加工のまま出力して、あるいは過去の作品とほぼ同じ内容のモノを偶然生成して、結果的に何かの作品をパクってしまう可能性もあります(まあ人間が作ったモノで同じ問題が常に起きてますが)。

脚本やメロディと同じく冗談も枯渇します。大抵の脚本が部分的にシェイクスピアと聖書にカブっている訳ですが、脚本以外にも、各種娯楽作品全般のパターンはほとんどが前例を有してしまっている訳です。皆さんがジジババになって死ぬより先に、その枯渇したエンタメ市場に、AIエンジニアが来てとどめを刺します。刺されるより刺したいから毎日作業をしています。これからアーティストはどうなるのでしょうか?

 

3,進捗、カブり紹介

06月07日、Pythonの入門書(新明解python入門)を終えました。数学の知識を要求されない事を祈りながら毎度ページをめくっていましたが、ついぞ出てくる事はありませんでした。
しかし、テキストマイニングの本にはマンハッタン距離とかデカルト積とかがたくさん載ってて、嫌な気持ちになります。

今回の記事では、私が今まで考えた面白文のうち、既に誰かが使用している事を確認できた面白文、つまりカブってる事を確認できた面白文を紹介します。

1.WW2敗戦によるドイツ分割を「ドイツが増える」と肯定的に表現する←冷戦期のジョークに既にあったようです
2.ヴィーガンは精液を飲めない←英語圏のネットミームに既にありました。
3.「Fuck you」を字義通りに解釈する←redditのジョーク投稿スレで頻出しています。まあ普通に考えてこれは誰でも思いつきますよね。「Ted2」のパーティーシーンにも同じボケがありました。
4.黒人を対象にしたジョークで「(バスケットボールの)court」と「(法廷の)court」を引っ掛ける←めちゃくちゃオーソドックスなようです。これも誰でも思いつきますよね。
5.部落民のキャラ(皮田)を「近親相姦に関する面白文」の対象にする←「アラバマジョーク」というアメリカンジョークの類型に、「近親相姦に関する面白文」が取りうる(恐らく全ての)形態が大量使用されています。これでは部落関係の面白文を生成しようがない…
ちなみに私が気に入ったアラバマジョークを2つ紹介。

・Q.「CSI:アラバマ」が作られない理由は? A.DNAが皆同じで、歯形も取れないから
・Q アラバマ人の男が姉・はとこ・叔母・義母・母を殺した。死亡者は合計何人? A:2人

他にも、カブってる事を確認できた面白文は大量にあるのですが、その紹介はまたの機会に。では。

2,進捗

Pythonの組み込み関数の使い方は8割ほど覚えたので、ぼちぼちテキストマイニングの入門書を読んでいます。

無知ゆえか有能ゆえか、ある程度お笑いAIの青写真が見えてきました。

大修館書店から出ている「レトリック辞典」という分厚い本を読んでいるのですが、「このパターンの冗談はギリシア喜劇の頃からあったのか」とか「明より前の時代の中国人は既にこのパターンの冗談を言ってたのか」など驚きの連続です。高い本ですが、古本屋が誤って安く売ってたら買うのをオススメします。

1,病んでいます

勉強の進捗を書くぞ!と宣言した矢先ですが、今週は大きな心労に襲われたので、それについて書かせていただきます…申し訳ございません…

 

pythonの入門書をこなしつつテキストマイニングの本を読んでいます。

今週は一日平均3時間勉強しました。無職なのに勉強時間が短すぎますね。これには理由があります。

 

Googleは、AIに冗談を解説させる研究をしています。

nazology.net

私の素人目には、「冗談を解説するAI」より「冗談を生成するAI」を作る方が簡単に見えます。

あるいは「冗談を解説するAI」を開発できるエンジニアは「冗談を生成するAI」を開発する能力を有しているように思えます。

Googleが「冗談を生成するAI」でなく「冗談を解説するAI」を作っている理由が、「前者を作るのが簡単すぎる」というものだった場合、私が人生の大半の時間を費やしてきた「冗談の生成」という行為が「Googleの金で研究する必要もない些事」であるという事になります。

加えて、自動運転や高層建築物の設計ができるAIよりも、冗談を作るAIの方が開発が困難だとは、私は思えません。

仮に、上述した通り「冗談を作るAI」の開発が極めて容易であるならば、明日にも、5分後にも、どこかのエンジニアが、コメディアンを完全に失業させる水準の超面白AIを発表しておかしくない訳です。しかもそれをオープンソースにして全世界に無料配布する可能性もあります。

 

上記の事を考えると、パニック発作の予期不安のような状態になり、勉強に集中できません😭

睡眠薬抗うつ剤を飲みたいので近所の精神科を予約したのですが、7月にならないと診察できないとのこと😭

いずれAIエンジニアがコメディアンを失業させる日は来ます😭

だから私は「AIに失業させられる側」でなく「AIで失業させる側」に立ちたいです😭

それがAIの勉強を始めた最大の理由です😭

もし「失業させる側」という勝ち馬に乗れなかったとしたら、悲しい😭

実は2017年あたりから薄々「自分が40歳になる前にAIはコメディアンを失業させるだろう」と勘付いていました。


AIエンジニアは日々、様々な分野の芸術家を失業させるための研究をしています😭

こんな事なら芸術ではなく「草野球」とか「ランニング」とか「食事」を愛する人間に生まれたかった😭

だいぶ前にAIに手も足も出なくなった将棋棋士・チェス棋士には、その敗北の衝撃に立ち向かうために、「棋理への興味」を「棋士である自分への自尊心」よりも優先する選択肢があった訳です。私にそういった選択肢はありません。

-

と、勉強の進捗を報告するといいながら、メンタルの不調を報告してしまいました😳

悩んでいる暇があるなら関数の一つでも覚えろという話ですよね😳

今週はpythonブラックジャックを作りました😳

私がPythonに習熟して冗談生成AIを作るが先か、そこら辺のエンジニアが余技として冗談生成AIを作るが先か…

来週はなるべく目の前のタスク以外に意識を向けないようにします😳

pythonと自然言語処理を学ぶ日記

私は人に監視されているプレッシャーがある方がモチベーションを確保できるので、今日からこのブログに勉強の進捗を書きます。

python自然言語処理を学び始めたのは、自分のかわりにAIにコメディを作らせるためです。

将棋AI界隈と違って(厳密にはトップクラスの将棋AIを作っているエンジニア達は一般に自分の製品のことを「将棋AI」ではなく「将棋ソフト」と言っていますが)、コメディAIを研究しているエンジニアの中に、"AI"ではなく"コメディ自体"に長時間携わった人間はいないので、そこに私が参入したら何かよい事が起こるのではないかと思ったのが第一の動機です。

第二に、渾身の作品である川崎国の1話と2話がかなりスベったことで、(支援者の方には申し訳ないですが)自力で漫画を描くモチベーションがなくなったという動機があります。もちろん今後も毎年1つ新しいエピソードを更新していきますが、その新しいエピソード達に徐々に自然言語処理の勉強の成果物を盛り込めていけたらな・・・ゆくゆくは漫画に盛り込む冗談の5割以上をAIに作ってもらえればな・・・と思っています。

AIにコメディをさせる事が、AIに自動運転をさせる事より簡単だとしたら、いやですね。

最前線で自動運転とかを研究してるエンジニアが、一斉にコメディを研究し始めたら、五年も待たずに地球からコメディアンが消えるのでは?毎晩ふとんでそう思っています。

このブログは勉強日記になるので、一部の方には購読解除のお手間をおかけします。申し訳ございません。