マイクロソフト、AzureやMicrosoft 365などに影響した先週の大規模障害の原因報告。WAN内の全ルータが再計算状態に突入し、パケット転送が不可に - Publickey
マイクロソフトは、日本時間で先週の1月25日午後4時頃から最大で約5時間半に渡り、Microsoft AzureやMic...

BGPのミスりやすいのに、影響範囲が大きすぎる問題はどうにかならんのかな…。
Koji ロイロノートCEO(@loilokoji) - 02/07

えー、PCもスマホもOffice製品はその後もずっと調子悪いですけど…

今回も色々ある。「設定変更のためにあるルーターにコマンドを送ったところ、そのルーターがWAN内の...」 /

対策がキツそうな障害。

ありとあらゆるマイクロサービスを全滅させてそうで凄い。

この間のMSのあれはこんなんだったんか…


えぐすぎやでーい

自分らで引き起こしてたのね(๑´•.̫ • `๑)

そんな事あるーたー

トラフィックがガッツリ乗ってる時に大規模なルーティング再計算は地獄だな(たぶんOSPFかな)

(。・ω・。)ノ 365などに影響した先週の大規模障害の原因報告。WAN内の全ルータが再 .

超大規模は設定変更の影響が多いなぁ、、設定漏れでデータ漏えいと同じくこっちも何とかして欲しいよね

ただの「自滅」
①設定変更のためにルーターにコマンドを送った
②そのルーターがWAN内のすべてのルーターに対して誤ったメッセージを送信
③その結果、WAN内のすべてのルーターが、適切にパケットを転送できなくなった
担当は真っ青だったかと ドンマイだ(笑)
①設定変更のためにルーターにコマンドを送った
②そのルーターがWAN内のすべてのルーターに対して誤ったメッセージを送信
③その結果、WAN内のすべてのルーターが、適切にパケットを転送できなくなった
担当は真っ青だったかと ドンマイだ(笑)

どんなコマンドだろうw
ルーターの不具合っぽいね。MSでも検証せずに導入とかやるんだな。ここら辺のプロセスはやってるもんだと:

まあ、2000年くらいから感じてたことかな。
IPやEthernetに関する最低限の知識がないがしろにされてるの。
2002年頃にはIXのルーターの取り扱いのミスで、日本のインタネットが二つに分かれたよね。
IPやEthernetに関する最低限の知識がないがしろにされてるの。
2002年頃にはIXのルーターの取り扱いのミスで、日本のインタネットが二つに分かれたよね。

未検証のHWを基幹に導入するの、いくらなんでも無理では。

仕事してたと思うのだけど、全然気づかなかった

経路計算がメモリやCPUに比べてギリ足りないくらいのボリュームになった感じだね...

普通の人にルータ再計算とか言ってわかるのかよw
この障害結構起きるのよね😅
この障害結構起きるのよね😅

ルータの設定変更コマンドを誤って全ルータに送信とな。
ヒューマンエラーなのかな?
ヒューマンエラーなのかな?

こういうことがあるからクラウドはやめよう、みたいな話がまあ毎回出ますが、「同じインシデントがオンプレなら起きないってことですか?」の問いはし続けたいよね。

うWA-N ってことか /

クラウドシステムそのものが結局 SPOF なっちゃうというのは、何とも悲惨な話だ。

当事者は血の気がひいたろうな |

1ルーターの不具合なのかコマンドの誤った命令なのかよくわからないな…
詳報を待つか。
詳報を待つか。

先週のMSの障害の詳細な報告があがってるね

OSPFとか走ったんかな?
> 設定変更のためにあるルーターにコマンドを送ったところ、そのルーターがWAN内のすべてのルーターに対して誤ったメッセージを送信。その結果、WAN内のすべてのルーターが再計算状態に突入
> 設定変更のためにあるルーターにコマンドを送ったところ、そのルーターがWAN内のすべてのルーターに対して誤ったメッセージを送信。その結果、WAN内のすべてのルーターが再計算状態に突入

つらそう。こんな大規模なものには関わってないが、どちらかというと共感の方が先に立つ。

これやらかしたMS社員、夜眠れないだろうなぁ。

ルーターの再登録が一斉に発生してパケット詰まったってのと似たような -

どこかの国のクラウドサービスみたいに、データ全消去とか無いだけマシだと思う。

>"ルータが再計算状態に突入し"
考えただけでも恐ろしい……。
考えただけでも恐ろしい……。

ルータの検証不備ってことかな?

MS大規模障害の暫定ポストモーテムが出ていた。Publickeyさんが参考訳&解説を出していた。オペレーションは1台だけに実施したっぽいけど、そこから他の全台にアカン命令が飛んで、全台で砂時計が回ったようだ(よくわかってない)

大変そうすぎる

先週の1/25にAzure、MS方面で発生していたネットワーク障害の速報。
2次被害の収束には少し時間を要したようだけど、問題箇所は7分で異常検知、1時間後には自動回復で復旧開始、2時間後には回復していたというのは凄いな。
2次被害の収束には少し時間を要したようだけど、問題箇所は7分で異常検知、1時間後には自動回復で復旧開始、2時間後には回復していたというのは凄いな。

先週のAzure/MS365の障害、なかなかファンキーな情報じゃのう…。WAN内の全てのルーターに誤ったメッセージが送信されたってどういう事象だろ。
以上
関連するニュース
いま話題のニュース
もっと読むPR
PR