KDDIで発生した通信サービスの障害はなぜ起きたのか - Togetter

88コメント 2022-07-03 20:04|Togetter

ツイッターのコメント(88)

他社ユーザーなので今さら確認したけど、対処は「少しづつ確認しながら再開」しか無いし、これは大変だ['A`]
ポストモーテムーー米国のIT企業は、システム障害が発生した後に社内外の関係者と共有する事後検証報告書(日経コンピュータ『ポストモーテム みずほ銀行システム障害 事後検証報告』、日経BP)を公表すれば、今後の教訓になるかと。
現場からトップまでちゃんと機能してて、いやもうすげーなって感想しかない
今の仕事してて特別な何か吸収出来てる自覚はそこまで無いのだけど、これ読んで大体わかるって事はちゃんと身になってるな。
障害が起きた(長引いた)ことの解説だけど、この夜中の時間(深夜2時ころ)にアクセスの集中が起きるのはなぜ?
ユーザーがそれほど使ってない時間ではないのかしら?
事故の教訓は残していかないとね >
わかりやすいまとめ出てた(わかりやすいかは知らない)
これ、レベルが高い経営陣なのでマスコミのクソみたいな叩きで辞めさせないで欲しい。マジで日本のネットワークの将来にダメージ与えかねない。
現場が障害発生を認識した10分後に対策本部が立てられ、同時に社長までエスカレされてることの凄さ。しかも土曜日未明。

それでもこんなに時間がかかるという、「輻輳」対応の難しさよね。

-
「言い訳するな!」というセリフを言う人が世の中には居るかもですが、説明責任を真摯に果たそうと尽力してる人に向かってそれ言うのがどんだけカッコ悪いか、考えてほしいですね🐵

.
本当の危機管理とは何かを改めて知った一件だったなぁ。
をお気に入りにしました。
KDDIの通信障害、概要を把握。
VoLTE交換機での輻輳発生→利用者側からの再送要求によって加入者データベースにも輻輳が発生→加入者データベースとVoLTE交換機でデータ状態の不一致が発生という、地獄としか言いようがない事態だったんですね。読むだけで胃が痛い。
ご飯前によむと胃がキュー―っとしてダイエットになる
分かりやすい。大企業で障害起こって10分で社長にまで連絡行くのすごすぎる。これは連絡系統や障害の大きさの管理はもちろん、シミュレーションもしてないとできなさそう
KDDIの通信障害のやつ。
私は通信系のことは何も分からないけど1:50に発生して2:00に社長に報告が言って対策本部が立ち上げられるの凄くない?
承前、mvno側での障害発表が明朝の件。1:50に障害発生→2:00にはauの社長が把握していたという話と比べると、こちら側の方が少しお粗末に感じてしまったので。
会見まとめ→
読んだ マジでお疲れさまです……
こんなことになってたのかー。
不通になったことに気づいて切り戻ししたのに復旧しなかった時は血の気引いただろうな...
それにしても事象発生から10分で社長に報告行くのがすごい。ミスは起こるものとして、起きた時にいかに早く立て直せるか対策考えた方が良いよね。
iPhoneとandroidで挙動が違うのね🤔
あまり障害内容を詳しく理解してはないですが、KDDIさんはトップがしっかりしてるのは把握しました✨
読んでる --
正直よくわかってない💦とにかくまだ私の端末の音声通話は使えてないです。この悲しみをどうすりゃいいの。誰が僕を救ってくれるの。僕がau。君はUQ。こいつはまさに…。
よくそんなの1〜2日で直せたな感しゅごい…
問題起きて10分でトップが把握はすごすぎるわ
KDDIの障害対応じゅうぶん優秀なのにに、店舗に詰めかけてる顧客には伝わらないという悲劇/
これを見る限り、少なくとも障害発生後の対応は極めてまっとうなのでは。状況に変化がなくても定時で報告が上がってくるのも安心。それにしても障害認知から10分で社長までエスカレーションってすごいな…
読んでも全然理解できん(笑)
発信したら「現在使われておりません」メッセだったから利用者情報にアクセス出来てないとは思ったけど、こういうメカニズムなのね。ある意味セルフDDoSやっちゃったって事でいいんかな。やっぱ機器交換での設定ミスかぁ…
通信系苦手だけど、理解できない障害ではない。復旧に時間かかるのは、そうかー、って感じだ
問題起きて10分で社長が把握はマジですごいな、KDDIすごい。大変だとは思うけど頑張って…応援してます…!
こうして詳細説明が出てくるの待ってたけど、勉強になるなぁ。知らない事いっぱい。会見、ちゃんと通しで見たいなと思ったら、途中にアーカイブリンクあった。あとでみよう。

.
今回起きたau通信障害。

おいそれと『インフラエンジニアを目指します』などと言えなくなってしまいました。。(けど目指します!)

いろんな記事読んでいると社長や現場の対応に自分も身が引き締まる思いになります。
わぁ…担当者の胃腸が心配。ネットの設定って難しいよね…
しかし、対応速いなぁ
分かりやすいまとめ。
とりあえず担当者がゆっくり休めますように…
このまとめ読むと技術的なことは理解しきれなくても、KDDIめっちゃすげえなってなるから、私はこれからもauちゃん愛してくわ。
専門的な事は全く分からんけど
中の人達が適切に対応していたのは分かった
社長への連絡も10分で行ってたらしいし
組織としても適切な流れだったみたい

政府から人が行ってたそうだけど
邪魔だったろうなあ
iPhoneでデータ通信は出来るがVoLTEがダメだったの不思議だったけどそう言う事か、
をお気に入りにしました。
むしろ、この程度で収めたKDDIが凄い気がして来た。。。
難しい話だけど読みました。土日で助かった面もあると思うけど復旧作業されたみなさんお疲れ様です。/
まだ「起きている」んだぞ
過去形の「起きた」ではない
とても勉強になる。

KDDIすごいな。社長までの連絡スピードとかヤバさしかない。スゴい。しっかりした運用体制作ってるし、記者会見で使用してた資料もだけど説明も全て社長が出来てるのが信頼しかない。

.
中身はさておき、こんだけ専門性の高い批評や概説がほぼリアルタイムで共有されてまとめ上げられるという事が如何に凄いかというのを再認識したのが個人的ハイライト
いやー、これ「事故が起こらないように設計すべき」って言っている人はそりゃそうなんだが通話が無くても信号が飛ぶって考えりゃすげえ難しいぞ
結構痺れる展開ですね・・・。当事者ではありませんが、胃が痛くなる。
再送要求の集中、か…リアル店舗に突撃する人々と同じ事をスマホもやってるんですね…
我が身で想像したら確実に胃が痛くなるけど、気になるので読んでしまった。
なるほどこういうことか…現場のエンジニア、関わった全ての方々本当にお疲れ様案件だ…
単に技術畑出身だったからかもしれないけど、自分の言葉で技術的な内容を会見で喋れる社長カッコいいな。システム障害をニュースで知ったみずほの頭取とか二段階認証?のセブンPay社長とかと比較すると余計に。
機器の故障というより、一部分エラーが起きてリカバリーした結果、これを引き金にユーザーが猛烈に問い合わせしつづけデータの渋滞発生、各データベースに齟齬が生じ事実上機能停止みたいな感じか
「ルーターの交換したが設定がおそらく間違っていた。」KDDIの対応の完璧さが勉強になるわ/
KDDIのやつは諸々まとまったら勉強するから教えてください
会見で謝罪したことが重要なのではなく、起こっていることを的確に説明して対応進めている点はむしろ評価できるのではという見方もあるよね。
地獄のような状況だったんだなあ。
これは門外漢もそれっぽい理解が出来るツリーだから一読しとこう。いつかの東証システムエラーの時の会見した素晴らしい上役の方を思い出す。
加入者DBへはユーザ認証、その後VoLTEサーバへは接続要求という感じで、接続失敗のリトライ時も加入者DBから始めるから加入者DBも輻輳してしまったと理解。
総務省、邪魔だな(笑)
まーそれは置いとて輻輳の対処難しいよなぁ。 ー
ぼんやりとしかわからんけど、ぼんやりとなるほどなーっつってる。
すごい解説してくださってる。
ただ途中から詳細にはいると理解がおいつかなかった…
原因は理解した…ぽい。

のちに賠償などの話も出てるけど、すごいいい答え方で、好感。ドコモ口座あたりひどかったな…。
ソフトが原因でハードが死ぬ、ハードが原因でソフトが死ぬ、どちらも担当エンジニアが違うから死屍累々事案になるよね
危機管理のスピードのはやさが注目されてる

.
KDDIの対応は完璧に近いもんだった
社長も技術屋らしいちゃんとした答えを返せる状況も満点に近い
ミスはあったかもしれないが、こういう会社にはシステムがちゃんと任せられる
すごい分かりやすかったし、今回の件で「よくわかんないけどauダメだなw」で乗り換える人は次の通信会社がトラブった時にえらい目に遭いそう。
1日で復旧させたKDDI偉い。すごい。
ルーターの交換したが設定がおそらく間違っていた。それによりVoLTE 交換機での輻輳が発生した。輻輳が発生すると利用者側からの再送要求が行われる。それの影響で加入者データベースにも輻輳が発生した。
ルーター交換時の設定ミスが原因で輻輳が発生し、それが原因で別のところでも輻輳が発生し…が連鎖的に起きてたようだ。
なるほどわからん もう一度読む
緊急通報が繋がらなかったのは、別の基盤を用意せず一般回線を使うようになっている日本独自の問題なんだが、出羽の守あたりが湧いて出そう。 / .
これ読んだ。数%も理解できてないと思うけど、大変なこと起きたし切り戻し…とか文字見るだけできつ。
今回の通信トラブルに関して、あんま他人事にすべきでないと思うます。
これからモノのIoT化とか企業のデジタル化がより進むという事はこういった突発事故の影響がより大きくなる。
障害が起きたことによる賠償問題等についてはこの際置いておいて、障害に対する復旧対応については、KDDIは良くやっているとは思う。
障害発生からすぐにトップまで連絡が行く組織ってなかなかないぞ…
いやはやすごいな…文字で読めば読むほどauさんすごい
なるほどなー。…輻輳起きるとユーザからの再送起きて輻輳悪化するのはつら…。未だ不安定なのはそういうこと、かしら…
DB不整合か...そら長引くわ
ただただ頭が下がります
社長さんの判断と理解力はさすがとしかいえない…
これを読む限り毎度電気の話で恐縮だが、まさに需給バランス崩壊によるブラックアウトと同じ構図だ ユーザーとしてできることは端末からの再接続要求を止めるべく機内モードにするとか?
技術屋じゃないから詳細分からないけど分かり易い説明。ちゃんと社内連携が出来てるの凄いなぁ
控えめに言って地獄
でも10分で社長までエスカレーション上がってるのはすごい
自分が当事者だったら果たして同様に対処できるか。。。
なるほど、作業そのものはすでに終了したけど原状回復は別の話なのでまだ時間がかかりますってことか。お疲れ様です案件だ。
社長さんも社員さんもすげえ
.
この記事読むとKDDIはかなり頑張ってくれていたとわかる。どうか責めないであげてほしい。
胃が痛くなる話だけど面白い。
日々、新しい製品が出てて、同じ製品でもバージョンによって挙動が変わる中で、商用で絶対に問題起こさないなんて無理よなぁ。起きないように努力はすべきだけども。
良いまとめ
. ルーターの交換不具合とアクセス集中が原因らしいけどよくわからない🤪
なるほど🥺
すげー😭 社長も現場も。
をお気に入りにしました。
以上
 
PR
PR