Slack、1月の大規模障害の原因を説明。「AWS Transit Gateway」がトラフィックの急上昇に対応できず、AWSはアルゴリズムを見直すと - Publickey

17コメント 2021-02-10 00:33 Publickey

Slackは、日本時間1月4日の深夜から1月5日かけて発生した大規模障害についての詳細説明をブログ「Slack’s Outage on January 4th 2021」で行いました。 AWSのネ...

ツイッターのコメント(17)

大規模だとこういうことも起きるのか
利用者側(Slack)じゃなくて提供側(AWS)がアルゴリズムを見直すってのもすごい話ですよね
利用側が本体に修正を言わせるのは珍しい気がする。Twitterさんもキバって欲しい。良く分からんサービス追加はもう良いので・・
へええ。
前もスケール絡みでOSのリソース上限に引っかかったような。制限が無いとはいえ、管理限界はあるんじゃないか
以前のSlackの障害、 Gatewayが原因だったとのこと
ユーザー側でここまで気にかけたモニタリングするのは相当難儀だな……
こんなことになってたのね。で、AWS(その他クラウド)に乗せるより安定し、AWSより速く障害に対処できるシステムや体制を作れるか?って言ったらムリなんで、それを踏まえて色々考える必要があるよな、と思った次第。
(。・ω・。)ノ Gateway」がトラフィックの急上 .
AWSはこれがよくあるんだよなぁ。TransitGateway売りだろうにきちんとしないと他へ行くぞ。
トラフィックとインフラはコントロール困難やからなあ
いい話だ・・
「あらかじめリクエストするようにリマインダー(もちろんSlackのリマインダー)を設定した。」
w
参考まで。🐶
以上
 
PR
PR