マイクロソフト、AzureやMicrosoft 365などに影響した先週の大規模障害の原因報告。WAN内の全ルータが再計算状態に突入し、パケット転送が不可に - Publickey

40コメント 2023-02-01 01:05|Publickey

マイクロソフトは、日本時間で先週の1月25日午後4時頃から最大で約5時間半に渡り、Microsoft AzureやMic...

ツイッターのコメント(40)

BGPのミスりやすいのに、影響範囲が大きすぎる問題はどうにかならんのかな…。
えー、PCもスマホもOffice製品はその後もずっと調子悪いですけど…
今回も色々ある。「設定変更のためにあるルーターにコマンドを送ったところ、そのルーターがWAN内の...」 /
対策がキツそうな障害。
ありとあらゆるマイクロサービスを全滅させてそうで凄い。
この間のMSのあれはこんなんだったんか…
たしかdocomo、auの通信障害も設定変更ミスだったような

通信系、いつにトラブルが起こってもおかしくないな
えぐすぎやでーい
自分らで引き起こしてたのね(๑´•.̫ • `๑)
そんな事あるーたー
トラフィックがガッツリ乗ってる時に大規模なルーティング再計算は地獄だな(たぶんOSPFかな)
(。・ω・。)ノ 365などに影響した先週の大規模障害の原因報告。WAN内の全ルータが再 .
超大規模は設定変更の影響が多いなぁ、、設定漏れでデータ漏えいと同じくこっちも何とかして欲しいよね
ただの「自滅」

①設定変更のためにルーターにコマンドを送った
②そのルーターがWAN内のすべてのルーターに対して誤ったメッセージを送信
③その結果、WAN内のすべてのルーターが、適切にパケットを転送できなくなった

担当は真っ青だったかと ドンマイだ(笑)
どんなコマンドだろうw
ルーターの不具合っぽいね。MSでも検証せずに導入とかやるんだな。ここら辺のプロセスはやってるもんだと:
まあ、2000年くらいから感じてたことかな。
IPやEthernetに関する最低限の知識がないがしろにされてるの。
2002年頃にはIXのルーターの取り扱いのミスで、日本のインタネットが二つに分かれたよね。
未検証のHWを基幹に導入するの、いくらなんでも無理では。
仕事してたと思うのだけど、全然気づかなかった
経路計算がメモリやCPUに比べてギリ足りないくらいのボリュームになった感じだね...
普通の人にルータ再計算とか言ってわかるのかよw
この障害結構起きるのよね😅
ルータの設定変更コマンドを誤って全ルータに送信とな。
ヒューマンエラーなのかな?
こういうことがあるからクラウドはやめよう、みたいな話がまあ毎回出ますが、「同じインシデントがオンプレなら起きないってことですか?」の問いはし続けたいよね。
うWA-N ってことか /
クラウドシステムそのものが結局 SPOF なっちゃうというのは、何とも悲惨な話だ。
当事者は血の気がひいたろうな |
1ルーターの不具合なのかコマンドの誤った命令なのかよくわからないな…
詳報を待つか。
先週のMSの障害の詳細な報告があがってるね
OSPFとか走ったんかな?

> 設定変更のためにあるルーターにコマンドを送ったところ、そのルーターがWAN内のすべてのルーターに対して誤ったメッセージを送信。その結果、WAN内のすべてのルーターが再計算状態に突入
つらそう。こんな大規模なものには関わってないが、どちらかというと共感の方が先に立つ。
これやらかしたMS社員、夜眠れないだろうなぁ。
ルーターの再登録が一斉に発生してパケット詰まったってのと似たような -
どこかの国のクラウドサービスみたいに、データ全消去とか無いだけマシだと思う。
>"ルータが再計算状態に突入し"
考えただけでも恐ろしい……。
ルータの検証不備ってことかな?
MS大規模障害の暫定ポストモーテムが出ていた。Publickeyさんが参考訳&解説を出していた。オペレーションは1台だけに実施したっぽいけど、そこから他の全台にアカン命令が飛んで、全台で砂時計が回ったようだ(よくわかってない)
大変そうすぎる
先週の1/25にAzure、MS方面で発生していたネットワーク障害の速報。

2次被害の収束には少し時間を要したようだけど、問題箇所は7分で異常検知、1時間後には自動回復で復旧開始、2時間後には回復していたというのは凄いな。
先週のAzure/MS365の障害、なかなかファンキーな情報じゃのう…。WAN内の全てのルーターに誤ったメッセージが送信されたってどういう事象だろ。
以上
 
PR
PR