TOP > IT・テクノロジー > AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず - Publickey

AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず - Publickey

109コメント 2019-08-26 00:45  Publickey

2019年8月23日金曜日の午後に発生したAWS東京リージョンの大規模障害について、AWSは日本語での詳しい報告を公開しました。 報告によると直接の原因は東京リージョンのデータセンターで使用されて...

ツイッターのコメント(109)

すいません記憶違いでした
参考まで。🐶
AWS障害の報告書をしげしげと読んでたけど、PLCとか。何ぼAmazonでもそこの保守部隊を自前で抱えてるとは思えない箇所だよなぁ。
「やっぱAzureだな」とか言ってたら、同じようなトラブルを2年前に起こし済みだったという・・。 AWS、冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず
ガンダムF91かバトルテックみたいだな。
物理的に分散できるといいんだけどね……災害対策にもなるし
そういえばナタンズのあの件も当初障害だと思われてたな、大丈夫?/
根本はSWバグ。論理から物理へ障害が移行していったわけですか。
バグで片付る?
試験した、なんの試験した?
って話になる
AWS大丈夫?
単一のAZだけだったって事でいいのかな。やっぱり可用性を求めるならマルチAZはしっかりやっておかないとですね。
空調を止めれる事が出来ればオーバーヒートしてシステムが再起動する。その隙に侵入すれば核を止められる。そうだろジョン? / …”
あの長い分かりづらい公式文書をたった一行のタイトルにまとめてる。素晴らしい >>
非常系の実動作確認は大事と。
該当AZのELB含んでるとマルチAZ構成のELBでも障害起きるって本当なの?マルチAZのRDSも死んでたって話も見かけるけど、公式な発表は見当たらないのはAWSが隠し事してるのかな?? / “AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェ…”
めも。内容を確認するだけで、胃痛が... (=_=;)
冗長設計とか当該機器納入した業者は、頃大変だと思うなぁ。(理不尽な突っ込みが無いことを祈りたい)
>AWS、東京リージョン23日午後の大規模障害について詳細を報告。-
障害が発生しないシステムは無いからね。どんなに可用性を高めたとしても、ね。
ボーイング737MAXみがある /
報告がこれだけの早さで当たり前のように上がっているのはすごいなぁと思う。
ソフト・ハード・ヒトが全部絡まった結構込み入った複合原因だったのね。冷却システムって素子によるものなのか空調だったのかはこの記事だけではよくわからなかったけど、元ネタには載ってるのかな。
アマゾンが燃えてたのは別のニュースなはずだろって(´;ω;`)… /
6時間やったか・・・ /
やはり熱中症だったか
>
ハード故障じゃなくてソフトバグとなー
直接は関係ないけれど、クラウドに大量のデータを保存するならば、異なる2つのサービスに同期的に保存しておくほうが安全かもしれないなと思った。
データセンターはAWS自前のものなんかな?
自前じゃなかったら冷却システムはデータセンターのもの?
知らない言葉が多くて頭に入ってこないw
AWSの障害、PLCの通信エラーが原因とか業界の話だった。
@hikasu


冷却制御システムのバグによってサーバがオーバーヒートとの事
先日のAWS障害、冷却制御システムのバグによるサーバのオーバーヒートとのこと。
自動ないし手動の復旧手段は3重に用意されてたが、PLCが単一故障点になったので全部失敗した、みたいな感じだろか
どうしようもねー感がすごい /
サマーウォーズでスパコン冷却用の氷が持ち去られて熱暴走したシーンを思い出したけどあんな感じかね?
Multi-AZにするってのが基本ですな。
世のサービスレベル目標とかリスク受容まわりで再考がおこるよいきっかけなのでは。
一方で、煽り言葉でバランスしないコスト増を進言するような向きがアレをナニするようなことがないと良いな、とも…
あまぞん日本の夏に負ける
かわいそう…
年中氷点下のAZが最強だな 石狩も夏は一応暑いんで
先週のAWSの障害の件,影響は一つのAZだけだったとのことだけど,PayPayみたいな決済サービスもシングルAZ構成だった?
そうかといって、北海道にサーバー基地を据えたら今度は『大規模停電』に見舞われたり(例・さくら)と、『負荷が掛かっても安定したデータストレージ』の確保への道は遠い…(-_-;) / “AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェ…”
該当AZでCloudfront + ALB + APIGateway + Fargate + Lambda + Auroraで組んでたシステムが死ななかったので、EC2とEBSが主っぽいな
こわい »
今回のAWSの大規模障害は、制御システムのバグから始まったようですが、まだバグの原因は調査中みたいですね。。
たしかにこういう計り知れないほど大きなシステムほど、どこか支障が出た場合に備えて利用側はリスクヘッジを考えないとですね😓
ちょっと気になるのが ”Amazon ELBでエラーが発生した、といった利用者の声も” というところで、ELBが気絶してたらMulti-AZ構成にしても意味なく無い? / “AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操…”
何段階も対応手段があったけど、全部失敗したという感じか。ここまでやっててもダメなときはダメなんだから、結びにもあるけど止まったときにどうするかを考えておかないとダメよね。
AWS、東京リージョン23日午後の大規模障害について詳細を報告。
これが素早く出てくるだけでもAWS使おうって思う
もっと見る (残り約59件)
 

いま話題のニュース

もっと読む
PR