• rss

Luis von Ahn: Massive-scale online collaboration[1]

あの「イラつく文字認証」のおかげで年間250万冊もの本がデジタル化されている

  • 関連ワード: , , , ,
    • このエントリーをはてなブックマークに追加
あの「イラつく文字認証」のおかげで年間250万冊もの本がデジタル化されている
誰もが一度はイラっとさせられたであろう文字認証「CAPTCHA」。ユーザがコンピュータで無いことを確認するセキュリティ機能のひとつですが、近年、これを解読することは「本のテキスト化」に協力することと同義になりました。同システムの開発者でクラウドソーシングも発案した起業家、Luis von Ahn(ルイス・フォン・アン)氏が、7億5,000万人が参加するプロジェクトが生まれたキッカケを語ります。( 2011より)

【スピーカー】
起業家 クラウドソーシング発案者 

【動画もぜひご覧ください!】
Luis von Ahn: Massive-scale online collaboration

誰もが一度はイラっとさせられるCAPTCHA(キャプチャ)

VonAhn1

ルイス・フォン・アン氏:このように、ゆがめられた文字の並びを読んで埋めるタイプのウェブフォームを見たことのある人は何人いますか? これを見て本当にいらいらすると感じた人は何人いますか? はい、すばらしいですね。私がこれを発明しました。私がこれを発明したメンバーの1人です。

(会場笑)

von1_R

これはCAPTCHAと呼ばれています。これは、フォームを埋めているのが実際の人間であり、何百万回もフォームを送信するようにプログラムされたコンピュータではない、ということを確認するためにあるのです。これが機能するのは、視覚能力に問題のない人間はこれらのゆがんだくねくねした文字を読むことが可能であるのに対し、コンピュータプログラムはそれがまだできないからです。

例えばチケットマスターを例にとると、これらのゆがんだ文字を入力しなければいけないのは、ダフ屋が何百万枚ものチケットを一度に買うプログラムを書けないようにするためです。

CAPTCHAはインターネット中で使われています。とても頻繁に使われているため、ユーザに示されるランダムな文字の並びが不運なものになってしまうことが何回もあります。これはヤフーの登録ページの例です。

VonAhn2

無作為な文字の並びがたまたまW、A、I、Tという単語になってしまったのです。20分ほどしてヤフーのヘルプデスクがもらったメッセージが最高です。

VonAhn3

「助けてください! 20分以上待っているのですが、何も起こらないのです」。この人は、待たなければならないと思ったのです。

VonAhn4

こちら、はあのかわいそうな人よりは悪くないですね。

(会場笑)

CAPTCHAプロジェクトは私たちがここカーネギーメロン大学で10年以上前に行い、あらゆるところで使われてきました。何年か後に私たちが行ったプロジェクトについて話させてください。これはCAPTCHAの次の進化のようなものです。私たちはこれをreCAPTCHAと呼び、

VonAhn5

カーネギーメロンで始め、そして会社として創業したのです。そして1年半後にグーグルがこの会社を買い取りました。

VonAhn6

CAPTCHAを解くことは、コンピュータよりも脳が優れていることの証明

このプロジェクトが始めたことについて話しましょう。このプロジェクトは、次のような気づきから始まりました。およそ2億ものCAPTCHAが毎日世界中で入力されている。私がこれを初めに聞いた時、私の調査のインパクトをみて誇りに思いました。しかし、その後なんだか申し訳なく思い始めたのです。

つまりこういうことです。毎回CAPTCHAを入力するたびに、基本的に人は10秒間という時間を浪費しているのです。そしてその一人を2億人にかけ合わせた時、人間全体で毎日50万時間、このいらいらするCAPTCHAの入力に浪費しているのです。だからなんだか申し訳なく思うのです。

(会場笑)

私は考えました。もちろん、私たちは単にCAPTCHAを取り除くわけにはいきません。なぜなら、ウェブのセキュリティはこれに依存しているようなものだからです。では、この努力を人類のための善に利用できる手はないだろうか?

von2_R

こういうことです。人々が10秒間つかってCAPTCHAを入力している時、彼らの脳はすばらしいことをしているのです。何か、コンピュータがまだできないことをしている。彼らに10秒間の間役に立つ仕事をしてもらうことはできないだろうか? 言い換えると、コンピュータも解決できない途方もない問題で、人々がCAPTCHAを入力する10秒の作業に分割して解決できる問題はないだろうか?

その答えは「Yes」でした。そしてこれが、今私たちのやっていることです。

ユーザが知らぬ間に貢献していた、本のデジタル化

みなさんはご存じないかもしれませんが、今では、あなたがたがCAPTCHAを入力する時、あなたは単に自分が人間であると証明しているだけでなく、加えて本をデジタル化するのを助けているんです。グーグルがやっています。インターネットアーカイブがやっています。キンドルを出しているアマゾンが本をデジタル化しようとしています。

基本的にこれは古い本から始めますね。見たことあるでしょう? 本ってやつを? まずは本から始まり、それをスキャンします。

本をスキャンするということは、本のすべてのページのデジタル写真をとるようなものです。本の全ページのテキスト画像をね。

次のステップとして、コンピュータが画像のすべての単語を解読できなければなりません。これにはOptical Character Recognitionの略でOCRと呼ばれる技術を使います。これは画像をテキストとして取り出し、テキストを認識しようとする技術です。

問題はOCRが完璧ではないということです。インクが消えかかってページが黄色がかっているような古い本は特に、OCRは多くの単語を読み込むことができません。

例えば、50年以上前に書かれた本は、コンピュータは30%の単語を認識することができません。そこで私たちがやろうとしていることは、コンピュータが認識できなかったすべての単語を取り出し、インターネット上でCAPTCHAを入力することで、それを読んでくれる人々を見つけるということです。

次の機会にCAPTCHAを入力することがあったら、あなたが入力している単語は実際にデジタル化されている本の中の、コンピュータが認識できなかった単語なのです。

VonAhn7

そして最近、1単語ではなく2単語認証させている理由は、単語の1つは本から取り出した単語で、コンピュータはそれを何と読むのか知りません。何と読むのか知らないから、認証もできないのです。だからもう一つ、システムが答えを知っている単語を提示しているのです。

私たちはどちらがどちらの単語かは教えず、両方入力してくださいと言います。そしてシステムが答えを知っている単語を正しく読めたら、コンピュータは入力者を人間であると認識し、もう一つの単語も正しく読まれた可能性が高いと判断するのです。そしてこの過程を10人の異なる人々に繰り返してもらい、すべての人が同じように読んだとき、新しい単語がデジタル化されたことになるのです。

このようにシステムは機能しています。これを3、4年前に発売したので、多くのウェブサイトが、時間をただ浪費する古いCAPTCHAから、本のデジタル化を助ける新しいCAPTCHAに交換してきています。例えばチケットマスター。チケットマスターでチケットを買うたびに、本のデジタル化を助けることができます。

VonAhn8

フェイスブックではどうでしょう。友達を追加したり誰かにあいさつをするたびに、本のデジタル化を助けています。

VonAhn9

ツイッターや他の35万ものウェブサイトがreCAPTCHAを使っていて、

VonAhn10

現に、reCAPTCHAを使っているサイトがとても多いので、一日にデジタル化している単語の数もとても大きくなっています。だいたい一日に1億語、年間250万冊もの本に相当します。これらはすべて1回1単語のreCAPTCHAによってなされているのです。

毎日本当に多くの単語を扱っているので、ちょっと変なことも起こります。というのも、ランダムに選ばれた二つの英単語を隣り合わせに示しているからです。面白いことが起こるんです。例えば、「Christians」という単語を示します。

VonAhn11

別に問題ないですね。しかしこの隣に無作為に選ばれた単語を置くと、悪いことが起こるんです。これが起こりました。「bad Christians」さらに悪いことに、これを示したサイトが偶然にも「The Embassy of the Kingdom of God」だったのです。

(会場笑)

VonAhn12

おっと、もうひとつ悪い例があります。JohnEdwards.comです。「Damn liberal」

(会場笑)

VonAhn13

私たちは毎日あちらこちらで人々を侮辱しているのです。

偶然を楽しむ「CAPTCHAの芸術」

もちろん、私たちは人々を侮辱しているだけじゃありません。無作為に選ばれた二つの単語を表示しているので、興味深いことが起こります。これは実際、何万人もの人が参加する大きなインターネットのミームとなり、CAPTCHAの芸術と呼ばれました。みなさんの中にも聞いたことのある人がいると思います。

説明しますね。インターネットを使っていて、いくらか妙なCAPTCHAに出会ったとします。たとえば「invisible toaster」。そこであなたがやることは、そのスクリーンショットを撮ります。そしてもちろん、CAPTCHAを埋めて本のデジタル化を助けます。そしてその言葉を連想させる絵を描くのです。

VonAhn14

何万もの絵があります。いくつかはとてもかわいいもので、「Clenched it」

VonAhn15

(会場笑)

いくつかは笑える。「stoned founders」

VonAhn16

(会場笑)

「paleontological shvisle」のようなものは、Snoop Doggがうつっています。

VonAhn17

(会場笑)

7億5000万人が1つのプロジェクトに参加した

はい、これがreCAPTCHAに関する私のお気に入りの数字です。このプロジェクトのお気に入りの部分です。

VonAhn18

これはreCAPTCHAを通して少なくとも一単語以上のデジタル化に協力してくれた人々の人数です。7億5000万人、これは世界人口の10%よりちょっと多い数字です。これだけの人々が人間の知識のデジタル化に協力してくれたのです。

※続きは近日公開!

↓この記事を気に入ったらログミーをフォロー!↓