TOP > IT・テクノロジー > AWS東京リージョンの大規模障害--制御システムにバグ、「パージ」移行に失敗 - ZDNet Japan

AWS東京リージョンの大規模障害--制御システムにバグ、「パージ」移行に失敗 - ZDNet Japan

16コメント 登録日時:2019-08-26 14:47 | ZDNet Japanキャッシュ

Amazon Web Services(AWS)の東京リージョンで8月23日に「Elastic Compute Cloud(EC2)」サービスの障害が発生した。同社は障害の発生した経緯と現在の対応状況について明らかにしている。...

Twitterのコメント(16)

ちょっと前の話題だがAWS東京リージョンがこけた原因が冷却装置の制御システムのバグという事だが、何で機械的緊急回避的スイッチを設けないんだろう。この場合サーバー側技術者と制御側技術者を取り持つSEのレベルが低くすぎるんだろうな。
冷却システムだけではわからなかったが、室温とあるのでサーバ室の空調システムか。空調は電気よりも環境に左右されやすいので、真夏に発生したのかな。
冷却制御システムに障害が起こると最大冷却になるはずも一部失敗、制御システムをバイパスするはずのパージモードも完全にバイパスできていなかったと。多重の安全策も完全じゃないんだなあ。 ▶
複数ホスト制御に滅法強い、優秀人材バリバリくん「いきます!」
いやな予感が頭に
「マーフィーの法則って知ってる?」
バリバリ「いいえ。いきます」
制御システムは応答しなくなった。。

バリバリくん「サードパーティー製システムのバグですね」彼にも事前には見抜けないw
かっこいい〜“AWSによると、同社のデータセンターでは、制御システムに障害が発生した場合、機能が回復するまで冷却システムが最大出力になるよう設計されているという”
/
a-z同期中、バグでcpu過負荷

加熱

冷却装置稼働

一部何故か稼働せず加熱

予備の排熱機構作動

それも何故か使えず加熱

仕方ないので手動で冷却モードに

そもそもぶっ壊れていて手動でも対応不可
AWS でこんだけ多重対策とってもダメとか、普通のシステムはもっと無理ですね(
もちろん直接の関係者ではないけど、ユーザー側ではなくサービス提供側の見方で読んでしまうなあ。

AWSでもこういう事態はあり得るので、止まってはならないシステムはマルチリージョンで設計しましょうね。
AWSの障害の詳細をみると恐ろしさが伝わってくるな。自分がそこにいたらと思うと恐ろしい。障害って、何が起こっている?何が原因だ?策A, 策B, 策C何が復旧早い?何が回復確率が高い?失敗したとき後戻りできる?みたいなのを同時に検討&決断しないといけないので。
制御システム側からAWSを攻撃できる可能性があるのね。データ漏洩とかはないけど、稼働を止める攻撃。
“データセンター制御システムを迂回し、冷却システムを「パージ」モードにすることで熱風を素早く排出しようとしたが、これも失敗” / “ - ZDNet Japan”
世の中には完璧っていうのはやっぱりないなと感じさせられる。
そして、クラウドシステムを狙ったテロが起きたら影響凄まじい事のになりそうだと怖さすらある。
ふむ。冷却システムの「パージ」てのは独立して強制動作させるモードかな? 最終手段は乱暴でもシンプルで確実に動作するように実装したいところ… →
awsクラウドサービスであってはならんぞほんと
以上

記事本文: AWS東京リージョンの大規模障害--制御システムにバグ、「パージ」移行に失敗 - ZDNet Japan

関連記事