TOP > IT・テクノロジー > AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず - ITmedia NEWS

AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず - ITmedia NEWS

80コメント 登録日時:2019-08-26 11:13 | ITmediaキャッシュ

2019年8月23日金曜日の午後、AWS東京リージョンで大規模障害が発生した。これについて、AWSが日本語での詳しい報告を発表した。...

Twitterのコメント(80)

原因これですねで終わってる話
3日後の報告。学びのサイクルですね「原因のバグについて調査中。オペレータは対応訓練を済ませる」 / NEWS)
「サードパーティー製の制御システムにおけるロジックのバグにより、この情報交換が制御システムとデータセンターのデバイス間で過度に発生し、最終的には制御システムが応答しなくなりました」 / “AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却シス…”
障害がさらに別の障害を引き起こす

今後どういう構成にしていくかな
リスクは色々有るわけで... 「制御システムやPLCのバグなどについて調査を進めているとのこと」 /
「メーデー!」を見ているような気分になりますな。事故原因の究明なんだから当然か…
いわゆる冷却システムのバグによって自動・手動問わずに失敗。
どの時点でエスカレーションが飛んだのか
ITの中でも電源や冷却、建物そのものを扱うファシリティー部門て特殊で、開発・運用部門がPLC意識する事なんて普段ないからなぁ
リアルのアマゾン森林火災もあって。。。こっちのほうが直接の被害がすぐにでる→
障害を起こさないシステムなど無い!
頻度だけだよね
oh...冷却システムのダウンだったのか…
正直言って震災の時の東電を思い出す。誰が悪いとかは興味がないけど、問題を起こさないことの難しさを痛感する。
なんかお粗末。セーフティー機能すら働かないなんて信用ガタ落ちでしょ。
AWS障害の詳細報告。制御システムのバグでフェイルセーフ失敗、手動操作も失敗だったとかエグすぎるな‥
予想よりもすごい状況だった
@Vis_mochi ほんそれ
まあ予算内に安く収めるのは大事だとは思うけど…ねぇ?

サードパーティの冷却装置の制御側の問題なんだと
PLC 使ってるのね( ̄▽ ̄;)
📝
👉

◾️いいね・リツイートをして,皆さん仲良くして頂けると幸いです。プロフィールもご覧あれ…
不具合は連鎖するもの。とはいえやはりお粗末な経緯だと判断せざるをえません。
詳細見ると現場はなかなかの地獄絵図
AWSがアベイラビリティゾーンをクラウドにマルチリージョンで構成してないからこうなる(錯乱)
23日のAWSの障害。意外な理由だった
結局、発端は制御システムの変更の実施。
バグ発覚でダウン。
フェイルセーフ、手動もNGで冷却装置が止まって熱暴走へ

なんか、原発のメルトダウン事故みたい。(^^;

>
原子炉の暴走みたいな記事です。
復旧してよかった。
これ見ると頭痛くなるよね
手動操作も効かないとか…暴走コンピュータのブライアンかよ。
多重障害は考慮しておりません!
AWS障害の件、少しだけ情報出てた。
影響受けたとこは、気が気じゃなかったんやろうけど、良い教訓になったような気がする
これなかなかに事件でしたね。
結構な数のサービスが止まってたとのこと。
オーバーヒート(゜o゜)でも今まで大きな障害無かったからなぁ~(^_^.)
今やAWSの障害の影響はきわめて大… →
徹底的な情報公開。この姿勢を見習わなきゃね。 / NEWS)
相手がクラウドじゃあ、エンジニアは手も足も出せない…
DC駆け付ける訳にもいかず…
東京が暑すぎて落ちたん笑じゃなくてバグ持ちだったんすね
だから、「マルチアベイラビリティゾーン構成」をお勧めしてるんです。(と、言いたいだろうな)


2019年08月26日 10時54分
🔽

冷却システムのバグですか...

暑さにはかないませんね🥵
東京の暑さが辛かったのね…
acceptanceで検証ナシ?
こないだのAWS障害についての発表。
半分くらいしかわからんけど、技術者さんてんぱっただろうなぁ
なるほど、冷却系ですか。しかしこれ、原文をIT関係者じゃない人が読んでも理解できないのではないかと… >
23日に発生したAWSの障害では一部のRDSインスタンスにも接続性の問題が発生していたようです。
うーん、PLC長期間立ち上げっぱなしでハングとかしてたんだろうか
単一AZってことは、障害が起きたゲームとかは構成がよろしくないんでない?
あのシステム障害のおかげでAWSの用語をいくつか理解しますた
字面だけ見るとSFアニメの燃える展開なんだけどな……(嗚咽
いくつものトラブルが重なって大規模障害。普段は(?)途中のどこかでとどめているのだろう。 《ニュース》AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず|
やはり時代は、オンプレ(保守員死亡)
オペ「冷却制御システムに異常発生!熱量増大していきます!」えらいひと「緊急システム作動、最大冷却モード」オペ「ダメです!制御受け付けません!更に熱量増大!サーバーがダウンしていきます!」胸熱展開やんw / “AWS、東京リージョン23日午後の大規模障害について詳…”
被害拡大の根本原因は、フェイルセーフが機能しなかったことかな
リアルサマーウォーズだった😰😱💦
"冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず" って文読むだけで地獄絵図が思い浮かぶんやけどwPLC のリセットで直って良かったな(´;ω;`)ウゥゥ
結局、AWSの障害でどういう状況なんでしょうか。
まだ一部で障害起きているような気がするのですが、気のせいでしょうかね😇

#インフラ
今までサーバの冗長性ばっかり勉強してきたけどよく考えたら冷却の方も考えないとダメだよな…
インフラ難しい…
冷却システムにバグがあってマニュアル制御も効かなくなるってなかなか恐ろしい
データセンタの可用率は通常非常に高いけど、それでも100%にはなりえないのでまさかという故障が稀だけど起こる。複数電力会社からの電源引き込みスイッチの故障なんてありえないような話も過去にあったしな...
先日のAWS障害、アラート音の中「温度上昇!」「冷却制御システムは」「沈黙を守っています、動きません!」「手動に切り替えろ!」「反応ありませんッ!パフォーマンス低下。オーバーヒートです!」「止むを得ん、一部システムを切り離せ!」みたいな遣り取りあったのかな
フェイルセーフが機能せずってあるある。長いこと放置してると実は復旧できませんでした。動きませんでしたってパターンは割とある

AWS、東京リージョン23日午後の大規模障害について詳細を報告。 -
過熱による大規模障害ってサマーウォーズ感ある
AWS、東京リージョン23日午後の大規模障害について詳細を日本語で報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず

空調制御をPLC経由でやっていたがそのPLCが反応しなくなった→手動強制パージもPLC経由で万事休す→PLC強制リセット
Discover(Google)から
Aws、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず
こっちは成功してるけど東電の事故みたいな流れだ
こういうの読むと、クラウドとか仮想化とか言ってるけど、最終的には世界のどこかに実物が存在するんだなと思い出す
読んだ。過渡の連携はかえってトラブルのもとになるのかなぁ…
なるほど。
詳細の原因は調査中とな。
やっぱり手動で駄目な時用に斧を配備しておかないといけませんなぁ。
ちなみに斧は眺めて精神を落ち着かせる用。
"冷却システムのモードを変更し、パージモード(解放モード)にするも、これにも失敗します"
エヴァとかパトレイバーのアレっぽい!
「障害が発生する前提で、あるいはどこまで許容する設計や運用にするのかあらためて考えさせる機会になったのでは」
興味深い
超大規模データセンターになると空調や電源などのファシリティの運用システムも凄まじいね //
結局、シーケンサが使える技術者が足りないって事。
フェイルセーフで作れてない。
クラウドのせいにするのは違うよね?
トラブルというのは本当に勉強になりますねぇ。ここから何を得ることができるかが大事で、誰のせいかと探すのは小事。
原因=データセンターの冷却制御システムにバグ⁉では冷却温度上昇アラームが鳴らないバグとしたら温度計自体のリアルモニター監視はしてなかった事になるね
★非常時バックアップのサーバーは存在してたか疑問点?
今頃だけど。
ここまでやってくれているのであれば責めるよりも褒めるべきだと思います。
冷却システム故障が2,3時間で復旧できるのか。

- -
※「クラウドであっても何らかの障害から逃れることはできません」なんというか、いろいろ目が覚めるような一文だ
先週末のAWS障害の原因、そしてAmazon内の対応内容について、期待していたより詳しい報告が日本語で公式発表された。
環境問わず落ちる前提でつくるしかない
あとはコストの問題
単一AZでの障害…個人利用のケースはともかく、法人利用で巻き添えトラブった所は設計ミスだろJK
以上

記事本文: AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず - ITmedia NEWS

関連記事