Cloudflare、全世界で発生した障害の経緯を解説

2019年7月15日 21:27

小

中

大

印刷

記事提供元:スラド

Cloudflareが2日におよそ30分間にわたって発生した障害について解説している(Cloudflareのブログ記事The Registerの記事)。

Cloudflareでは復旧直後のブログ記事でWeb Application Firewall(WAF)の新ルールにCPUを100%使用する正規表現が含まれていたことと、ルールが段階的ではなく短時間に全世界に展開されたことを原因としていたが、世界規模の障害につながった理由はそれだけではないという。問題の正規表現には  .*(?:.*=.*)  という部分があり、これが多数のバックトラックを生む原因となったのだが、テストには極度なCPU使用を確認する項目がなかったそうだ。

また、極度なCPU使用を防止する保護機能が数週間前に誤って削除されていたこと、Cloudflareの他のソフトウェアと異なり迅速性が重視されるWAFルールは全世界に一括展開されるようになっていたこと、サービスがダウンして内部のコントロールパネルで認証が行えない状態だったことも原因として挙げられている。新ルールは当初、ユーザーのトラフィックをブロックせずにパススルーする「シミュレート」モードで展開されていたものの、処理自体は実際に行われるためCPU使用率の上昇につながったとのこと。

今回の問題を受けてCloudflareでは極度なCPU使用に対する保護機能を復元し、すべてのWAFルールを人力でチェックして極度なバックトラックが発生する可能性を排除したという。また、ルールを段階的に展開するようSOP(Standard Operating Procedure)を変更中であり、ルールのパフォーマンスを確認する項目をテストに追加することや、正規表現エンジンの切り替えも予定しているとのことだ。 

スラドのコメントを読む | ITセクション | ネットワーク | バグ | IT

 関連ストーリー:
大阪市のシステム障害、2ノードのOracleデータベースサーバーで同じシステムファイルが破損したことが原因 2019年06月12日
Microsoft Azure、DNSの設定変更に失敗して全世界的に一時サービス障害 2019年05月14日
複数の銀行でネットバンキング障害、GW明けでアクセスが集中か 2019年05月09日

※この記事はスラドから提供を受けて配信しています。

関連キーワードOperaCloudflare

広告

広告

写真で見るニュース

  • 虎ノ門・麻布台プロジェクト完成イメージ。(画像:森ビル発表資料より)
  • BMW 330e iPerformance(画像: BMWの発表資料より)
  • 「ポルシェタイカン」ナルドでのテスト風景(画像:ポルシェ ニュースルーム発表資料)
  • 蛇田店に配備されているせいきょう便(みやぎ生協発表資料より)
  • アストンマーティンから誕生する初SUVは、多くの自動車ファンの関心を集めそうだ(画像: アストンマーティン発表資料より)
  • スターバックスリザーブストア銀座マロニエ通りの外観イメージ。(画像:スターバックスコーヒージャパン発表資料より)
  • 8月16日に行われたNASAによる発表の様子 (c) NASA Television
  • 「HondaJet Elite」(画像: 本田技研工業の発表資料より)
 

広告

ピックアップ 注目ニュース