Post

Conversation

昨日のCloudflare の障害のポストモーテムが、もう出ている。早い。 ・2025年11月18日にCloudflareで大規模な通信障害が発生 ・障害の原因は外部からのサイバー攻撃ではなく、社内のデータベース権限の設定変更ミスが根本原因 ・具体的には、ClickHouseのクエリ挙動が変わってしまった ・その結果、ボット管理用の設定ファイルに重複データが大量に混入した ・設定ファイルのサイズが本来の想定の2倍以上に膨れ上がっており、この巨大なファイルがネットワーク内の全サーバーに配信された ・サーバー側のソフトウェアには読み込み可能なサイズ制限があり、その制限を超えたためソフトウェアがクラッシュして処理不能になった ・当初は大規模なDDoS攻撃を受けていると誤解された ・エラーが出たり消えたりする不可解な挙動を示したため ・これはデータベースの一部だけが更新されていたことに起因する ・正常なファイルと異常なファイルが交互に生成されていた ・偶然にも外部のステータスページも同時にダウンしていた ・これにより攻撃者が全システムを狙っているという疑念が強まってしまった ・実際にはステータスページのダウンは無関係な偶然だった ・根本的な対応として異常なファイルの生成と配信を停止し、手動で過去の正常なファイルをシステムに投入した ・その後コアプロキシを再起動させることで復旧させた ・主要なトラフィックは協定世界時の14時30分頃に復旧し始めた ・完全に全てのシステムが復旧したのは17時06分だった ・2019年以来で最も深刻な障害だったと、Cloudflareは認めている