Googleの検索エンジンに「過去5年で最大の飛躍」。新たな言語処理モデル「BERT」の秘密

グーグルが、このほど「Google 検索」の検索エンジンのアップデートを発表した。これにより、長文による検索などでより文脈に合った結果が出るようになるという。グーグルが「過去5年で最大の飛躍」と呼ぶこのアップデート。可能にしたのは、言語処理モデル「BERT」だ。

Google

LYU LIANG/VCG/GETTY IMAGES)

Google 検索」が大きな進化を遂げようとしている。このほどグーグルが「BERT(Bidirectional Encoder Representations from Transformers)」と呼ばれる機械学習の手法によって、Google 検索におけるランキングシステムの性能を強化したことを明らかにしたのだ。

「セサミストリート」のキャラクター「バート」にちなんだ名をもつBERTは、グーグルの人工知能AI)ラボで開発され、18年秋に発表された言語処理モデルである。AIソフトウェア向けの読解力テストでは、記録更新を達成している。

文章検索の結果がより正確に

10月24日に開かれた説明会に登壇したグーグルの検索担当副社長パンドゥ・ナヤックは、BERTが長い検索フレーズを使う場面や、検索ワード同士の関係が非常に重要な意味をもつ場面におけるGoogle 検索のアルゴリズムを大きく改善したと説明している。

「これは過去5年間で最大の飛躍です」と、ナヤックは言う(少なくともランキングの変化でユーザーの探しものが見つかりやすくなると考えるグーグルにとってはそうだ)。グーグルは詳細を語らなかったが、これまでテスト段階にあったアップグレードは現在広く実装されているという。

グーグルはBERTのパワーについて、「Parking on hill with no curb(縁石のない丘に駐車)」という検索ワードを例にとって説明した。現行の検索アルゴリズムでこの検索ワードを入れると、「縁石のある丘」を検索しているかのような結果が出る。しかし、BERTを使用したヴァージョンでは、道路の脇に車輪を向けるように運転手にアドヴァイスするページがハイライトされるという。

「2019 brazil traveler to usa need a visa(2019年 米国へのブラジル旅行者 ヴィザは必要)」という検索フレーズも例に出た。人間にとっては、米国に向かうブラジル人に必要なものを検索していることが明白だが、BERT以前のGoogle 検索では、重要な「to(へ)」を取り違え、「ブラジルに旅行する米国人」についての記事を結果のトップに表示していた。しかしBERTにより、検索エンジンは北に向かうブラジル人に必要なものに関するページを正しく表示できた。

Google検索は1日に何10億回と利用されているが、グーグルいわくBERTによるアップグレードはその1割ほどに影響を与えるという。しかし、ほとんどのユーザーはおそらく気づかないだろうとナヤックは話す。

とはいえ、この変更はユーザーやグーグルにとって重要なものだ。別の検索エンジンを試したことがあれば、Google 検索がユーザーの期待に合った答えを返すことが、どれほど重大な意味をもちうるのかわかるだろう。

米国外のユーザーたちは、もっとも大きな変化を経験することとなる。BERTのアップグレードにより、特に英語以外の言語において、いわゆる「強調スニペット」用の識別機能が大幅に向上したとナヤックは言う。

機械に「言葉の文脈内での意味」を教えるには?

グーグルのアップグレードは、言語理解を試みるソフトウェアのここ数年の進化のなかでも注目すべき一例だ。グーグルは、機械学習アルゴリズムに特定の単語が使われる文脈を分析させた。これにより、言語の微妙な違いを解読する能力を大幅に向上させたのである。

機械学習は、ソフトウェアに画像やテキストといったデータの分類・解釈を教える格好の手段だ。ただし、通常は各プログラムをそれぞれ実例データを使って「訓練」しなくてはならない。そしてテキスト文書については、これが大変である場合が多い。実際のプロジェクトでは、まず誰かにお金を払い、「この文章は『低評価レヴュー』、これは『高評価レヴュー』」といったように、データにラベリングしてもらわなければならないのだ。

だが2018年の春夏、OpenAIおよびアレン人工知能研究所は、もっと簡単で有力な方法を提案した。機械学習プログラムに単語の違いを教えたのだ。プログラムに該当の一単語だけでなく、同じ文章や違う文章内のほかの単語も合わせて参照させることにより、5月の「May」、助動詞の「may」、人名の「May」のような同音同型異義語に至るまで単語を識別できるようにした。

この手法で、非常に大きな訓練データ群を使って訓練されたモデルは、言語のだいたいの意味を把握するようになった。その後、このプログラムはさらに比較的少数のラベル付きデータを使って訓練され、特定の作業に特化するようになる。

当時、アレン人工知能研究所は同社のシステムの名称を「Embeddings from Language Models(言語モデルからの埋め込み)」の略である「ELMo(エルモ)」とした。グーグルの研究者たちが、2018年に同社の新しい言語処理モデルに名前をつけるとき、セサミストリートを思い浮かべたのはそのためだ。

さらに上がるハードル

OpenAIとアレン人工知能研究所およびグーグルのソフトウェアは、AI向けの言語テストにおいて新記録を出している。「みんなとても興奮しています。進化がとても速いからです」とOpenAIの言語プロジェクトに携わったジェフ・ウーは語る。

ただし、これにはひとつ副作用がある。研究者たちは、基礎的な文章内容の把握といったタスクの評価のために、さらに難しいテストを新たに考案しなくてはならなかったのだ。

とはいえ、BERTが大学生の論文を批評できるわけではない。「言語は信じられないほど繊細で、さまざまなニュアンスを含んでいます」とナヤックは語る。

グーグルが検索ボックスの言語面での使いやすさを改善するたび、人々はさらに複雑で難解な検索ワードを入力するようになる。それによってグーグルの文を解釈するロボットが超えなければならないハードルが実質的に引上げられるのだ、とナヤックは言う。

※『WIRED』による「Google 検索」の関連記事はこちら

RELATED

SHARE

スター・ウォーズの世界に暗雲が垂れ込めてきた:銀河系からの最新ニュース

新たな三部作の制作を担当することになっていた「ゲーム・オブ・スローンズ」のクリエイターたちが、プロジェクトから離脱した。フランチャイズの未来において、このニュースがどのような意味をもつかはまだわからない。現時点で確かなことはただひとつ。残念ながら、2022年に第1作が公開予定だった新三部作が日の目を見ることはなくなった。このほか、『ザ・マンダロリアン』に潜む重大なネタバレ、予告編に登場する星の名前、カイロ・レンの本名などに関する情報をお届けしよう。

TEXT BY GRAEME MCMILLAN
TRANSLATION BY CHIHIRO OKA

WIRED(US)

Star Wars

©CAPITAL PICTURES/AMANAIMAGES

※記事はスター・ウォーズに関する公開情報やインタヴュー、噂などに基づくもので、ネタバレにつながる情報が含まれていることがあります。十分にご注意ください

スター・ウォーズの世界に暗雲が垂れ込めている。『スカイウォーカーの夜明け』の公開が近づき、Disney+の実写ドラマ「ザ・マンダロリアン」も配信が始まろうとしているいま、はるか彼方の銀河系が騒がしくなっているのは当然かもしれない。ただ、当面の重要なニュースについては短期的ではなく長期的な影響が注目される。

ワイズとベニオフがシリーズから離脱

情報源:ルーカスフィルムおよび関係者
信憑性:残念だが完全に正しい情報だ。
実際のところ:誰も予期していなかった動きだが、恐らくはこうなる運命だったのだろう。「ゲーム・オブ・スローンズ」のデイヴィッド・ベニオフとD.B.ワイズが、計画中の新たな三部作から離脱することが決まった。

このニュースがファンを驚かせたのは10月末だが、その後にさまざまな続報が明らかなった。ベニオフとワイズに関しては、スター・ウォーズのファンダムの強力さに“恐れをなした”と報じられている。

一方で、ルーカスフィルムの側はベニオフとワイズがネットフリックスと巨額の契約を結んだことを懸念したという。両者がネットフリックスのために映画やテレビドラマを制作することになれば、スター・ウォーズの新作への注目が薄れる可能性が高いからだ。

理由はともかく、ルーカスフィルムと同社を率いるキャスリーン・ケネディにとって頭の痛い状況であることは間違いない。スター・ウォーズを巡っては、過去5年だけでも、ジョシュ・トランク、フィル・ロードとクリス・ミラー、コリン・トレヴォロウといったクリエイターたちが、一度は正式に発表されたあとでプロジェクトから降板している。

なかでも、『ローグ・ワン/スター・ウォーズ・ストーリー』の撮り直しに伴う恐怖は記憶に新しいのではないだろうか。ただ、情報筋によれば、今回の動きによって社長としてのケネディの立場に問題が生じるようなことはないようだ。

フランチャイズの未来において、このニュースがどのような意味をもつかはまだわからない。現時点で確かなことはただひとつ。残念ながら、2022年に第1作が公開予定だったベニオフとワイズによる新三部作が日の目を見ることはなくなった。

『ザ・マンダロリアン』には重大なネタバレが?

情報源:『ニューヨーク・ タイムズ』
信憑性:具体的な情報は何も明らかにされていないため、実にもやもやした気分にさせられる。
実際のところ:ベニオフとワイズの三部作の計画が白紙に戻ったことで、シリーズの映画版の行く先は不透明となった。このためテレビ向け作品の重要性が増しており、『ニューヨーク・タイムズ』が「ザ・マンダロリアン」の配信開始の2週間前に掲載したある記事が注目を集めている。

記事そのものは、ディズニーの新たな映像配信サーヴィス「Disney+」に関するものなのだが、そのなかに「ザ・マンダロリアン」のエピソード1には「スター・ウォーズに関する驚くべきネタバレが含まれている」という一文があるのだ。では、いったい全体どのようなネタバレなのかというと、それ以上のことは何も書かれていない。

ディズニーは「ザ・マンダロリアン」について、マーケティング目的での関係者向けの先行公開などを一切行なっていない。事前の情報漏洩を避けるための措置で、だとすれば、このネタバレはかなり重大なものなのかもしれない。もしかしたら、12月に公開を控える最終章『スター・ウォーズ/スカイウォーカーの夜明け』関連の何かなのだろうか。

シリーズ最強のパイロットが再登場

情報源:シリーズ公式サイト
信憑性:公式サイトの情報なのだから本当の話だ。
実際のところ:オリジナル三部作に登場し、ファンの間ではシリーズ最強のパイロットとして知られるウェッジ・アンティリーズが、新作小説『Star Wars: Resistance Reborn』に登場することが明らかになった。この情報はこれまでは機密扱いだったが、ノヴェライズ版の表紙のイラストが流出したことで、ルーカスフィルムが正式に認めた。

『Resistance Reborn』は、『スカイウォーカーの夜明け』の前日譚となる物語だ。シリーズの公式サイトであるStarWars.comにアップロードされたプレスリリースによると、チャック・ウェンディグによるスピンオフ小説『Aftermath』に出てきた女性パイロット、ノラ・ウェクスリーも登場する。しかも、ふたりはどうやら過去に一時的に恋愛関係にあったようだ。

そこまでやるなら、『フォースの覚醒』にも登場したノラの息子テミン・ウェクスリーのドロイドであるミスター・ボーンズを放っておくという手はないだろう。ファンとしては、映画館のスクリーンでミスター・ボーンズがBB-8やR2-D2と一緒に活躍する様子をぜひ見てみたい。

予告編に登場する星の名前が判明

情報源:ディズニーのテーマパーク運営部門
信憑性:情報としては正確なはずなのだが、それが意味するところはいまいちわからない。
実際のところ:公開まで1カ月余りとなった『スカイウォーカーの夜明け』をめぐって、思いもよらないところから新しい情報が出てきた。ディスニーのテーマパーク運営部門だ。

それによると、作品の予告編に登場する荒れ狂った海は「ケフ・ビル(Kef Bir)」という名前の衛星が舞台となっている。ディズニーパークのフライトシミュレーター型アトラクション「スター・ツアーズ:ザ・アドベンチャーズ・コンティニュー」では、年末から期間限定で、映像が最終章に登場するシーンを追加した特別ヴァージョンに切り替えられる予定だ。

予告編ではケフ・ビルの海にデス・スターの残骸が浮かんでいることから、この衛星はエンドア星系の月のひとつだと考えられているが、確かなことは何もわからない。すべてが明らかになるのは、最終章が世界同時公開される12月20日になるだろう。

カイロ・レンの本名が意味するもの

情報源:ネットの噂
信憑性:本当であるには話ができ過ぎている気もするので、とりあえずは「もしかしたら」のファイルに分類しておこう。
実際のところ:最終章のタイトルが意味するところを考えているファンは、ネットで興味深い説に出会えるかもしれない。ご存知のようにカイロ・レンの本名はベン・ソロだが、実はこれが間違いだというのだ。

というのも、『ハン・ソロ/スター・ウォーズ・ストーリー』で語られていたように、カイロの父親のハン・ソロの名前は単に「ハン」で、姓はないからだ。カイロが母親の名字を受け継いだとすれば彼の名前はベン・スカイウォーカーであるはずなのだが、話はそれほど単純ではない。

この説はそれなりに説得力があるが、とにかくここで『スカイウォーカーの夜明け』というタイトルが重要な意味を帯びてくる。これはカイロ・レンがフォースのダークサイドから抜け出すということを暗示しているのかもしれないからだ。

カイロの祖父のアナキン・スカイウォーカーは、シスの暗黒卿ダース・ベイダーとなったときに過去の名前を捨てた。ここから類推すれば、ベン・ソロであれベン・スカイウィーカーであれ、カイロがかつての名を手にするなら、それは彼が再びジェダイを目指すということを意味するのではないだろうか。

これについても、答えは12月20日の最終章の世界同時公開を待つしかなさそうだ。

※『WIRED』によるスター・ウォーズの関連記事はこちら

RELATED

SHARE