TOP > IT・テクノロジー > SpotifyがミスによりKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほとんど影響しなかったのはなぜか? - Publickey

SpotifyがミスによりKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほとんど影響しなかったのはなぜか? - Publickey

130コメント 2019-07-08 01:27 | Publickeyキャッシュ

今年、2019年5月20日から3日間にわたりスペイン バルセロナで開催されたKubeCon+CloudNativeCon Europe 2019の基調講演では、SpotifyがミスによってKubernetesのクラスタを消去してしまった経験......

ツイッターのコメント(130)

k8sクラスタを消してしまったけど、 影響はなかったという話。
問題を解決する場所はひとつじゃない /
簡単に操作できることは、簡単に大規模障害を引き起こせるということ。
カオスエンジニアリングとかそんな感じか?分からん。
なぜ耐えられたのか?が読み取れなかった、書いてあった? /
Keynoteでこれやるっていいね。k8sは触ったことないけどももし移行していく上でも参考にしたい記事。
AsiaとUSリージョン失うとか想像しただけでやばそうなのに😨
Spotifyでもミス自体は良くあるやつなんだな。ただミスが起こっても無影響は素敵。/
興味深い。2回も消しちゃったのは草
「リストアのテストをしていないバックアップは、バックアップの意味をなしていない」良い言葉だな
> 障害が起こることをあらかじめ計画として
障害を計画するなんてどれだけのサービスができているだろうか
わらっちゃうけど明日は我が身
人は必ずミスをするし、落ちないソフトウェア・ハードウェアは世の中には存在しない。そんな当たり前のことに目を背けると痛い目に遭う。
-----
ここから引用
"サービスディスカバリ機構はKubernetesのものではなく社内のもの"
(中略)
"Kubernetesクラスタが失われたときにはそのIPアドレスを削除してサービスディスカバリを再起動することにより、すぐに非Kubernetesのインスタンスへのフェイルオーバーが可能となった。"
Oh... 本番クラスタ2度も削除 ー
インフラの冗長化。イザというときに活きるのは多様性ということか。手間はかかるが、1色ではなく多色にできるようにしておくと、一族諸共やられる可能性は下がるということか。 / “SpotifyがミスによりKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほ…”
これ全方位的に感動した。リカバリやIoCの仕組み的な話はもちろん
“社内には、失敗したときに人を責めるのではなく、そこから学ぶという文化を創ること。私がクラスタを削除したときでさえ、Spotifyのチームは私をサポートしてくれた。”
これは泣ける。
Spotifyのエンジニアでもこんなミスするんだw

SpotifyがミスによりKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほとん&
"そしてインフラのコード化を進めること。ただし新しいツールの導入は徐々に行うこと。" むむむ...(反省の意
削除しちゃダメーw。
Discover(Google)から
社内には、失敗したときに人を責めるのではなく、そこから学ぶという文化を創ること。
ミスは怖い。。。
「rm -rf /」を何度もやらかしたのより影響大だな。。 /
“失敗したときに人を責めるのではなく、そこから学ぶという文化を創ること”こういう文化があると逆境に遭遇しても立ち向かえそう /
こんなこと起きてたんですね
ヒューマンエラーまでも想定してるのは、さすがだなあ。/
失敗しても非難しない。失敗から学ぶ。

大喜利みがある。/
> リストアのテストをしていないバックアップは、バックアップの意味をなしていない。
あとで見る
んー、これはあまり褒められたことではないよね。計画的に障害に備えるのは良いことだけど、本番作業を甘く見過ぎてない?
7Payと同じ惑星のサービスとは思えん。。。
なるー。やるなぁ。
「インフラのコード化を進めること。新しいツールの導入は徐々に行うこと。失敗したときに人を責めるのではなく、そこから学ぶという文化を創ること」link: SpotifyがKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほとんど影響しなかったのはなぜか?
失敗しやすい環境、マジで大切。失敗は必然、成功は偶然だし、失敗していいと言われると心理的安全性に繋がる気がする。 /
「失敗したときに人を責めるのではなく、そこから学ぶという文化を創ること。」
釣りタイトルすぎるのでは /
影響範囲が大きい操作する場合、「ターゲットの名前 (この場合はクラスタ名) を手入力させる」みたいなインターフェイスだと良いのかなあ。(事故を100%防げるものではないけど) / “SpotifyがミスによりKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほと…”
“リストアのテストをしていないバックアップは、バックアップの意味をなしていない。” それな /
興味深い
“具体的には、Spotifyにおいて当時Kubernetesの利用はまだβ段階であったため、各チームには全面的なKubernetesへの移行ではなく、部分的な移行を推奨していた。” 結論としては、計画的に障害に備えてたように見えない / “SpotifyがミスによりKubernetesの本番クラスタを二…”
2000万円貰っている人の品質がこれだから、私もっと貰って良いと思う😂😂😂
SpotifyがミスによりKubernetesの本番クラスタを二度も削除
一度穴守稲荷様にお祓いしていただいた方が良いと思う。
悪夢だけど...起こり得ることはすべて実際に起こる例かも。失敗したときに人を責めるのではなく、そこから学ぶという文化を社内に創るのが一番のバックアップ。 / “SpotifyがミスによりKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほとんど影響しなか…”
もっと見る (残り約80件)
 

いま話題の記事

PR