中国の百度が日本のサービスである「みんなの顔文字」に過度なクロールを行い、トンズラしたのではないかと話題になっています。相手が岡崎図書館であれば逮捕され、終身刑でもおかしくない案件。読売の記事には以下のように書かれています。
中国検索最大手「百度(バイドゥ)」が、日本国内のソフト開発会社のサーバーに1時間当たり30万回の大量アクセスを行い、この会社のサーバーに一時、接続しにくくなったことが分かった。
バイドゥなどによると、同社の開発担当者が先月10日、文字や記号を並べて表情のように見せる「顔文字」を作成するソフト開発会社「IO」(東京)のサーバーに対し、自動プログラムを使って30分間に15万回のアクセスを2回にわたり実施した。
サーバーには100万種類の顔文字データが保存されており、同社はこのデータを使った顔文字辞典のアプリを一般向けに提供していた。大量アクセスでサーバーがつながりにくくなった結果、アプリの動きが異常に遅くなるといった不具合が生じたという
Source:読売
これを見る限りでは、単なるクロールのようにも思えますが、根はもっと深いようです。以下、該当事件のまとめ。
ネットの反応
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-11 08:50
.@Simeji_jp 昨日19時頃バイドゥのIPアドレスから短時間のうちに30万回を超える不審なアクセスが弊社のサービスにありました。繋がりづらくなり利用者の方に大きな迷惑がかかりました。DoS攻撃として被害届を出すことも検討してます。アクセスの意図など早急に説明をお願いします
@Simeji_jp: Simeji(公式)ユーザーサポート 2014-04-11 10:44
@mitsuaki_i お問い合わせいただきありがとうございます。Simejiサポートです。只今事実関係を確認中でございます。確認が出来次第、早急にご連絡致します。大変恐縮ではございますが、今しばらくお待ち頂けますでしょうか?
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-11 11:33
攻撃元IPはダイレクトメッセージで送りました。どうぞよろしくお願いします。
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-11 14:48
.@Simeji_jp
ご返答はいつ頃になりますでしょうか?また、210151件は弊社サーバーが200番を返したようですので、そのアクセスによって得られた情報を全て削除をして下さい。
@Simeji_jp: Simeji(公式)ユーザーサポート 2014-04-11 15:48
@mitsuaki_i 返信が遅れ、誠に申し訳ございません。確認結果については先ほどダイレクトメールでお送りしました。ご確認の程宜しくお願い致します。
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-11 15:50
. @Simeji_jp メンションでお返事頂いてもいいでしょうか?
クローラーという返答には納得がいきません。http://t.co/1UEekAOSWC
こちらにも記載されていないアドレスですし、クエリパラメータは弊社のAPIを叩くように記述されてました。
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-11 15:57
. @Simeji_jp 故意ではないという事ですが特定のホストに対してパラメータを設計してリクエストを投げるのが故意では無いとしたらなんなのですか?原因についての説明は納得がいかないままですし、当初求めた目的/意図に対する説明がまったくありませんので納得がいく説明をお願いします
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-11 22:23
今日は納得いく説明はもらえそうにないな。
"公式ページには全く記載がないクローラーが、情報収集の為に、弊社のAPIのクエリパラメータに合わせて一般ユーザーのアクセスが困難になるほど大量の30万回のリクエストを行なった。故意ではなく過失であった。"
返事をまとめるとこんなところ。
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-11 22:24
どうも、うっかりとか偶然が情報収集を目的としたプログラムを作るようである。
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-11 22:23
.@Simeji_jp 納得いくお返事がなかったので追加で一点ほど。弊社に対する一連のアクセス(検索のリクエスト)に、御社クラウド変換で使っているような(人名や話し言葉の)テキストがリクエストの回数分含まれているんですが、これは御社では社外に送信して大丈夫な情報なのでしょうか?
3日以上音沙汰なし
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-14 16:55
.@Simeji_jp すみません。何点か追加で質問させていただいたのですが、ご回答いただけませんでしょうか?
@Simeji_jp: Simeji(公式)ユーザーサポート 2014-04-11 18:19
@mitsuaki_i お待たせしております。ご質問に対する回答を、メールにてお送りさせていただきました。ご確認頂けますと幸いです。
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-14 18:28
.@Simeji_jp 金曜日に頂いたDMでしょうか?その後で、こちらからした質問に対して御社の回答を頂きたいのですが…
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-14 21:17
メンションで返さないのは隠したいというやましい気持ちがあるからなんだろうけど、だったらアプリの通信から取得したような公開されてない(顔文字検索用)APIを無理やり叩きまくるなと。しかも検索ワードは(たぶん)IMEのクラウド変換に使ってるテキスト。
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-14 21:37
「クローラーの過剰アクセス」って返答だけど、
robots.txtは無視するし、UAはPython-urllib/2.7、IPはアクセス毎に0.1秒単位で変わってる。
すぐバレる嘘をどうしてつくのか。DM読み返したら腹が立ってきた。
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-16 13:27
昨日のバイドゥとのメール
バ「お詫びします。誠意ある対応したい。直接会いたい」
弊「会ってどういう話ができるの?」
バ「謝罪。今回の目的と説明。今後の改善」
弊「その内容を正式な書面で下さい」
バ「直接会いたい」
弊「書面にできない理由は何?誠意ある対応お願いします」
-返事待ち
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-16 20:59
.@Simeji_jp ご回答に時間がかかるようですので2点目の質問です。
御社が今回のアクセスでパラメータに付けた単語は、御社のクラウド変換で使うようなテキストではないのでしょうか?これらは外部に送信しても良い情報だったのですか?ログをWebで公開しても問題ないですか?
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-17 12:50
.@Simeji_jp @baidu_japan
何もご連絡がないのですが無視する方針ですか?社内で協議中ですか?
ログの公開を考えてます。公開に問題があるのかないのかハッキリと本日18時までにTwitterで回答下さい。ない場合は問題ないと回答したとみなしWebで公開します。
@mitsuaki_i: Mitsuaki Ishimoto 2014-04-17 18:23
.@Simeji_jp @baidu_japan
返答がありませんので公開します。御社が弊社に不正なアクセスを行い、不正に情報を取得しようとした際、御社が使った検索キー(一部)です
http://t.co/wa4yrBrSSO
御社サービスでユーザーが入力した情報ではないのですか
そして読売の報道後
@mitsuaki_i: Mitsuaki Ishimoto 2014-05-04 23:20
.@Simeji_jp 報道対応はされているようなのですが、私の質問に対するご回答はまだでしょうか?
@Cottoncolo: Cottoncolo 2014-05-04 12:48
@mitsuaki_i 突然のリプ失礼します。公式に文書での謝罪がないままだったと思うのですが、読売の記事に「バイドゥは「問題のある行為だった」と謝罪している。」とあるのが気になりました。これを読んだ人は正式な謝罪があったと思いそうです。
@mitsuaki_i: Mitsuaki Ishimoto 2014-05-04 13:25
@Cottoncolo あくまでも向こう側の主張を掲載したのだと思います。「(相手が納得してないし相手の質問には全く回答してないけど)"申し訳ありません"とは言ったので謝罪はした」というバイドゥの主張なんだと思います。不誠実な対応で謝罪はしたと言われても益々納得出来ないですね。
1:名無しのプログラマー 2014/05/05 ID:ItSoKuHou
このように作者は大変に迷惑していたようですが、現在も明確な返答が無いとのこと。詳しくはTogetterに書かれていますので、興味ある方はそちらを参考に。
また、何故か削除されてしまった記事には次のように書かれていました。
「日本語入力の辞書機能向上のため、他社のサーバーからデータを引っこ抜いてくるのは通常の業務だった」。
バイドゥ日本法人で昨年まで働いていた男性はこう打ち明ける。
例えば、上場企業名を入力すれば即座に変換できるようにするため、情報サイトのサーバーに入り、企業名の「読み方」のデータを取得していた。男性は「本などの資料からデータを打ち込むべきだと進言しても、上司に『そんな時間のかかることをやっている暇はない。サーバーからデータを取ってこい』と指示された」と振り返る。Source:http://archive.today/sZFGR
参考までにSimeji開発サイドのツイート。
さいきんのテック系ネット媒体のライターって芸能記者とそっくりでろくに取材せず一方的に書くけど、需要があるってことは媒体読者属性がアサヒ芸能とか夕刊フジと同じなのかしら。
— 矢野りん (@yanorin) 2014, 5月 2
うちの事務所は力が無いから書きたい放題でどうしようもないの。でも芸能記者も生活があるからねえ。と、ぼやいていた友達の気持ちがわかってしまうわね。
— 矢野りん (@yanorin) 2014, 5月 2