Fastlyが大規模障害の経緯を公開、原因はソフトウェアのバグ。障害を1分以内に検知し、49分でおおむね復旧させたと報告 - Publickey

16コメント 2021-06-09 18:48 Publickey

CDNベンダ大手のFastlyが日本時間6月8日夕方に障害を発生、その影響は国内にもおよび、メルカリや楽天市場、Amazon.co.jp、Twitter、ABEMAなど多くのサービスに接続できないなど...

ツイッターのコメント(16)

6月8日夕方
メルカリ、楽天市場、Amazon、Twitter、ABEMAなど多くのサービスに接続できなくなった障害の原因
実はFastlyの障害、夜ご飯作ってる間に発生して作ってる間に終わってたんだけど、49分でおおむね復旧ならそれはそうという感じ
バグは起こるもの。
いざという時にどう対処するか。そこを世間は見ていて、今回のFastlyはうまく対処したと思う。株価も上がってるのは、そう思った人が多かったからなのかなーと。

Fastlyが大規模障害の経緯を公開、原因はソフトウェアのバグ。 -
検知〜修正までが爆速でビビる
"09:47 グローバルで障害発生
09:48 モニタリングにより障害を検知
09:58 状況報告を公開
10:27 原因となった顧客のコンフィグレーションを特定
10:36 リカバリ開始"
Fastlyが大規模障害の経緯を公開、原因はソフトウェアのバグ -
先日のFastlyの障害の規模ハンパなかったけど、透明性の高いインシデントレポートでむしろ信頼度が爆上げしてるのは流石!

1年間 = 525600時間のうち49分のダウンタイムで復旧したんだから、変わらず99.99%のSLA = 約52分は満たしていると考えられる👀
早期回復、早期復旧 はシステム障害時の対処として重要だが、もう一つ、影響範囲の極小化 というのも重要であり、この点が抜けている。

しかも、CDN には負荷分散・高速化とともに冗長化の意味...
正直今のままでもかなりやばい
自分が関わってるプロダクトも影響受けてるものがあって、何もできないもどかしさとエラーハンドリング方針について考えさせられた。
1分で検知して49分でシステム復旧とかめちゃくちゃかっこいいんだが…→
バグは絶対に止まらないサービスでも入り込むということ。
そのユーザーにしてみれば、道端のボタン押したら目の前のビルが崩壊するいたずら動画みたいやな /
バグの詳細は公開されていないのか。普段は意識していないけど重要なサービスというのは理解されたと思う。_φ(・_・
この規模の障害でこの早さでの対応はさすがすぎる。少しでも近づきたい。
以上
 
PR
PR