チューリング株式会社 |チューリポ <社員インタビュー Vol.3> なぜKaggle Grandmaster 荒居は自動運転 × 生成AIというフィールド選んだのか 読み込まれました

<社員インタビュー Vol.3> なぜKaggle Grandmaster 荒居は自動運転 × 生成AIというフィールド選んだのか

2024/7/16

  • 社員インタビュー

大学院卒業後、新卒でリクルートに入社。金融系や旅行系、飲食系のプロジェクトや、推薦システム、基盤モデルの開発に携わる。Kaggle Competition Grandmaster、Kaggle Notebook Grandmasterのタイトルを獲得している。2024年4月にチューリングに入社。

リクルートで基盤モデル開発やKaggle Grandmasterのタイトルをもち機械学習の道を進んできた荒居さん。チューリングに興味をもったのは「生成AI✖️自動運転の領域は物理世界とのインタラクションなど、今後発展し、探索しがいのあるテーマに携われるから」だと語ります。荒居さんのこれまでのキャリアやKaggleへの取り組み、チューリングへの入社理由について聞きました。

Kaggleが好きな理由は、大きな目標を立ててステップを踏んでいけるから

ーーKaggleはどんなきっかけで始めたんですか?

Kaggleを始めたのは大学4年生の頃です。最初のきっかけは大学3年生のときにプログラミングの授業を取って「面白い」とのめりこんだことでした。その後、プログラミングができるならいい仕事があるよと教えてもらい、データ分析の会社でアルバイトをしたんです。最初に与えられたタスクが、Kaggleのコンペに出て知見を得てくるというもので、報酬をもらいながらKaggleのコンペをしていました。

ーーなぜ、Grandmasterを目指したんですか?

私のスタンスとして、大きな目標を立てて物事に取り組むことを大事にしています。そうすることで、人生に張り合いが出ると思っているからです。目的がなく日々を過ごしていると「一体自分は何をやっているんだろう?」とモヤモヤしてしまうんです。

Kaggleを始めたての頃、Grandmasterはとても大きな目標でした。大きな目標は一足飛びにはいけないので、小さい課題にブレイクダウンしてステップを踏む必要があります。Kaggleの場合はコンペに出て金メダルをとり続けていけば、自然とその目標に近づいています。大きい目標だけど不可能なものではないと思えたので、Grandmasterを目指そうと決めたんです。

ーーいつ頃から、大きな目標を追うことが好きだったんですか?

たぶん高校生くらいのときですね。突然「何かを達成したい」という気持ちがわいてきて、東京から長野までの120kmを徒歩で行くことにしたんです。3日に分けて工程を組み、宿などの準備をして歩くというチャレンジでした。120kmを3日で行くので1日40kmは歩きます。1日目はいいけど2〜3日目は足が痛くて大変なんです。ただゴールが近くなって知っている景色が見えてくると不思議と痛みが消えました。

次の経験としては大学で「躰道(たいどう)」という武道をしたときのことです。東大の躰道部はとても強く、十連覇以上していました。四年に一度、世界大会があり、私が四年生のときがちょうど世界大会でした。そのため、世界大会に出ることを目標に躰道に取り組み、日本代表として世界大会に出たんです。競技人口が少ないのでそこまで難易度は高くないかもしれませんが、成し遂げられたときは嬉しかったです。

※躰道で世界大会に出た荒居さん

ーー大きな目標を掲げて、戦略的に進めるのが好きなんですね。Kaggle Grandmasterになるうえでどんな戦略を立てたんですか?

Kaggle Grandmasterになるためにはメダルを獲得して集めていけばいいのですが、ソロで必ず1枚は金メダルをとるという条件があり、この難易度が高いです。そのため、ソロで参加するコンペは戦略的に選びました。

僕が取り組んだのは鳥の声を見つけるというコンペです。環境音のデータ(音声クリップ、音声データ、音響データ)があり、その中に含まれている鳥の声から、どのタイミングでどんな鳥が鳴いているのかを出力するという内容でした。

このコンペを選んだ理由は2つ。1つは、音響・音声データは過去に出てこなかったので、慣れている人が少ないことです。一方、私はAIスタートアップで働いていたときに音響データを扱ったことがあり、知識が少しありました。

2つ目の理由は、サブミッションの回数が1日2回までと少なかったことです。多くのコンペは一日5回までサブミッションができるので、手数を多くしてさまざまなことに取り組むほうが相対的に勝ちやすく、チームで取り組むのに適しています。逆に1日2回までだとチームで組んでいるメリットを生かしにくいので、ソロで戦いやすいんです。

ーーKaggleに取り組むときに大事にしていたことはありますか?

本質的な問題解決をするためにデータの特性を見極めるようにしていました。Kaggleのコンペの上位解法を読んでも字面だけ見ると似たように思えるんです。しかし、データの性質を捉えて手法を選んでいる場合が多く、なぜその手法を選んだか考えることに奥深さがあります。

例えば、鳥の声のコンペのときは学習データとテストデータの乖離が激しく、学習データでうまくいっていたモデルが、テストデータでは全然パフォーマンスしませんでした。なぜそうなるかを考えていくと、データの収集方法がそもそも違うからだと気付きました。

学習データはさまざまな個人がWebサイトにアップロードしたもので、テストデータはコンペのホストがマイクを設置して収集したデータです。ノイズのレベルが違うのはもちろんですが、ラベルのつけ方に違いがあることがわかりました。

ユーザーがアップロードしたものは、Aという鳥が鳴いているとアップロードされているデータですが、もし同時にBの鳥の鳴き声が入っていてもその情報は書かれていなかったりします。つまり、ユーザーのデータにはラベルが欠けているものがあるんです。

一方、ホストのデータはマイクをつけてアノテーションしているので、AとBの鳥が鳴いていたらどちらにもアノテーションがついている。こんな風に、データをよく見て考えていくと、データの生成過程による違いに気付けるのが面白かったです。

リクルートでは、自ら上層部に提案して基盤モデルの開発に携わった

ーー荒居さんは学生時代にスタートアップでインターンを経験した後に、新卒でリクルートに入社しています。なぜファーストキャリアでリクルートを選んだのかを教えてください。

修士課程1年のときに3週間ほどのインターンでリクルートに行ったことがあり、面白い会社だなという印象をもっていました。他にも何社かインターンに行ったのですが、1年間休学している間に他の会社とは連絡が途絶え、復学した時に連絡をくれたのはリクルートだけでした。

最終的にリクルートを選んだのは、さまざまな領域の尖った人がいるからです。うつり気なところもある自分が今と違う興味をもったときに、参考にできる人が多いのではないかと考えました。また、新卒同期という存在をもてることも決め手のひとつでした。

ーー自分がいずれ変わることも見越して環境を選んだんですね。

私の持論として人間はけっこう簡単に変わると思っています。だから、自分はこうだと決めつけることでチャンスを逃したくない。もちろん、新しい物事が入ってきたときにすべてを受け入れることは無理ですし、受け入れるべきではない価値観もあるので取捨選択は必要です。

とはいえ、新しい物事を受け入れられる柔軟性を持っておかないと、新しい価値観をもつ人と衝突すると思うんですよね。私はあまり衝突したくないので、「さまざまな価値観があっていい」という気持ちをずっともっていたい。大きなチャレンジにぶつかった時に向き合い、変化できる自分でいたいんです。

ーーリクルートではどんな仕事を経験しましたか?

リクルートには各ドメインに密着した組織と、さまざまな事業に共通する仕事を担当する横断組織があり、私は横断組織に所属していました。所属していた組織では機械学習のシステムのパイプラインの設計をすることが多く、その度にさまざまなプロジェクトにアサインされます。金融系や旅行系、飲食系のプロジェクトや、推薦システムや基盤モデルの開発に携わりました。

基盤モデルについては自分から上層部に提案してプロジェクト化しました。2022年4月頃、MidJourneyなどが登場して、画像生成が発展した時期のことです。すでにアメリカのビッグテックは基盤モデルに取り組み始め、日本でもLINEやABEJAなど複数の企業が取り組み始めているところでした。他社でAIに関わる人たちからサイバーエージェントで生成AIの研究開発を進めていると聞き、くわしく話を聞きに行きました。

その時に「日本が世界に勝っていくには、さまざまな企業が力を合わせ、企業連合を作っていく必要がある。リクルートでもどうですか?」という話を聞きました。そこで自分たちも取り組んでいくべきだと考えて上層部に提案し、予算をつけて取り組むことになりました。

ーーリクルートで仕事に取り組むときに大事にしていたことはありますか?

機械学習のモデル開発の経験を積むことだけにこだわらないようにしていました。当たり前のことですがリクルートでは、事業で収益をあげることを強く求められる社風でした。たとえ最先端の手法を使っても利益を上げられなければ意味がなく、逆にビジネスとして価値を出せるなら、古典的な手法でも認められます。

ビジネスで価値を出すために必要なのは、まずビジネスモデルや構造をきちんと理解することです。リクルートはどんな構造で収益を上げていて、どこに課題があり、何がボトルネックかを考え、そこに自分の強みを当てるように意識していました。

チューリングでの仕事は「探索」の要素が多く、それがとても楽しい

ーーチューリングに入社した経緯を教えてください

チューリングのことは創業前から知っていました。Twitter(現X)のスペースで代表の山本一成さんが話していたからです。山本さんが将棋AIを作った人であることは知っていたのですが、「なぜ今から自動運転に取り組むんだろう?」と思っていました。

気になるようになったのは、チューリングのTechBlogが盛んになった2023年頃です。発信も活発で勢いがあるし、知り合いも何人か働いていて楽しそうだなと思いました。そして、23年6月にJSAI(人工知能学会)に行った時に、チューリングの岩政さんと話す機会があり「リクルートにいた棚橋さんが入社した」と聞いて驚きました。

棚橋さんはリクルートでは有名な人で、チューリングにどんどん優秀な方たちが集まっていると思ったんです。さらに、大規模モデル学習に特化した専用計算基盤であるGaggle Clusterを作ろうとしている話も気になっていました。

気になる出来事が続いたので、会社見学に参加してみたところ、チューリングのやっていることがすごく面白そうだと思い、選考を受けることにしました。

ーー面白そうだと思った点を教えてください。

興味を惹かれたのは、基盤モデルを開発し、LLMだけでなくVision&Languageに取り組もうとしていることです。また、生成AIと物理世界のインタラクションに挑戦している企業はとても珍しいと思いました。これから発展していく分野であり探索しがいのあるテーマだと思っていたので、とても興味をもったんです。

ーー現在は、どのような仕事をしていますか?

英国のスタートアップWayveが開発した世界モデル※「GAIA-1」の調査を行いながら、チューリングの世界モデルを開発しようとしています。

(※:世界モデルとは、現実世界の物理法則や因果関係、物体間の相互作用などの「世界の仕組み」を表現するモデルのことです)

世界モデルを開発するには非常に多くのデータと計算資源が必要になるため、実現はなかなか難しいのではないかと思っていました。しかし、調査をしていくにつれてチューリングがもつリソースを活用すれば実現する道はあるかもしれないと考えています。

2024年2月に出たOpenAIのSoraは世界を理解しているのではないかと言われています。現在SoraにアクセスできるのはOpenAIの人だけですが、私も世界モデルの開発を進めていったら、自分の手元で同じようなものを作れるかもしれない。どんな振舞いをしているのか、自分で実験できたら非常に楽しいなとワクワクしています。

ーーリクルートで取り組んでいた基盤モデルの開発と、チューリングで行う基盤モデルの開発にはどんな違いがありますか?

リクルートの場合、基盤モデルが何に役に立つかを示すことが求められていたと思います。基盤モデルは役に立つはずだから「活用」しようという考え方です。一方、チューリングの場合は世界モデルがすぐに役立つかはわからないけど、とりあえずやってみようという感じです。これは「活用」ではなく「探索」なんですよね。

チューリングが実現しようとしている完全自動運転という世界は探索なしには到達しません。とても探索度合いが高く、それがとても楽しいです。探索と言っても道標のない中で探索するわけではなく、その過程で仮説をどんどん出していきながら実験していくわけです。その仮説が当たったとき、金の山を掘り当てたような感覚になれるはずですし、そのプロセスをも楽しいと思っています。

ーー今後やってみたいことはありますか?

まずは世界モデルをどんどん発展させていき、自動運転に使えることを示していくことが重要だと考えています。現在はフロントカメラの動画を生成しているのですが、次のステップはマルチカメラでさまざまな角度のものを生成できるようにすることです。マルチカメラでの世界モデル生成の取り組みは事例が非常に少ないのでやっていきたいです。

そして、運転で発生する可能性のあるレアな状況にも対応できるようにしていく必要があります。レアな状況は運転の動画データのみでは獲得できないはずなので、運転というドメインに限らず、多種多様な実世界の動画像を使うことで動画を生成できるのではないかと考えているんです。

そして、世界モデルに必要なデータをつくるのには、実はVision&Languageモデルが非常に役に立ちます。画像・言語のマルチモーダル生成AIであるHeronの出力形式を整えたり、特定領域に関する性能や運転知識、走行中によく出てくる物体の識別に関する知識を強化すれば、世界モデルも違ったものになる可能性があります。Vision&Languageと世界モデルには相互作用があると考えているので、モデルをちゃんと育てていくことも重要です。

ーーチューリングには、さまざまな属性のエンジニアがいます。自分とは違った属性のエンジニアと働くことをどう感じていますか?

異なる属性のエンジニアと働くことは大きな意味があると考えています。私たちが今やっている仕事は、技術が発展していけば10年後にはなくなる仕事だと思うんです。

しかし、今と同じ仕事がなくなったとしても、さまざまな知識を兼ね備えた人材は10年後にも市場価値があると思っています。そういった意味で自分があまり知らない領域の話をしているエンジニアが近くにいて、異なる領域に興味をもった時にすぐ質問ができ、知識をつけられる今の環境はとても贅沢だと思います。

ビッグテックや研究の動向を見ていると、将来的には物理世界と大規模モデルを融合させて、物理世界で動くエージェントとして大規模モデルを使っていくことになるはずです。自律的に考え、データ取得も自律的に行っていく、まさに人間のような振舞いをするエージェントが出てくるのが次のトレンドになるのではないでしょうか。それに近い取り組みがチューリングではできそうなので、すごく面白そうだと思っています。

HR立石の編集後記

インタビューからは大きな目標にストイックに向き合う人に見える荒居さんですが、実はアロハシャツで出社したり、海外旅行や食事を愛するなどチャーミングな部分があります。インタビューに気さくかつ丁寧に答えてくれる姿から、荒居さんがチームやプライベートで周りの人に愛される理由がわかりました。

生成AI最前線で走り続ける荒居さんの挑戦をこれからも側で応援していきます。

ライター:久保

Turing(チューリング)株式会社のオウンドメディア

運営会社

(C)2024 TURING INC.