TOP > IT・テクノロジー > SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告 - Publickey

SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告 - Publickey

38コメント 登録日時:2019-03-18 02:42 | Publickeyキャッシュ

3月13日の11時53分から15時13分(いずれも日本時間)までの3時間20分のあいだ、GmailやGoogle Drive、Google Photos、Google Storage、App EngineのBlobstore APIなどGo......

Twitterのコメント(38)

興味深くはあるが、SREって言葉が悪いニュアンスで広まりそうな記事タイトルかもな /
>SRE起因の障害か~
へー、なるほどなるほど。
Googleのチームの実力を持ってしても防ぎきれないレベルの問題だったということだろう。しかも、この分析を受けて信頼性はさらに上がる /
復旧までの3時間20分を長いと見るかどうかですね。
タイトルに "SREによる" って無理に入れなくてもいいんじゃないかという感じがする /
根本原因のところ、自分の想像力が足りないのか抽象的でよくわからんかった。 /
Googleも裏には人がいるんだなぁ。
こういう障害はどの規模でもやっぱり起きてしまうよなぁ。
SREも人間。。
【マニュアルで起こった人災とでもいうべきか?この手の事故はゼロにはできない。】SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告- エンジニアという「人」が介在せざるを得ないシステム運用の実情がある。
…。「リソース使用量を減らすため、SREらがコンフィグレーションの変更を行ったが、これにはBlobデータの場所を参照するというシステムの重要な機能の一部を過負荷にしてしまうという副作用が含まれていた。そして負荷の増大は最終的に次々と障害を引き起こすことになった」
結局は単一障害点を減らす為に分離するしかないってことか / 「ストレージサービスのリージョン間の分離を高め 」 /
これポストモーテム含めてGoogleが今でもきちんとSREを実践しているという証左になっているので良い。突き詰めるのはフェイルセーフなシステム構築とビジネス的価値の追求であって100%の安心ではない。エラーバジェットだいぶ使っただろうからしばらくは安定運用だろうけど
ここまでしっかりした障害報告を社外にも公開してくれるの、社会的な学びの糧として大変ありがたい / (198 users)
またタイムリーな記事がw:
»
SREの作業が問題を引き起こし、SREが対応し、そしてSREが対策をする、という話 「 - Publickey」
日本型古典的企業で品質保証なるものを行ってるらしい人々が議論の題材にしたら面白そうな話。(議論にならないという結果に終わったら尚面白い)
この記事の表現を読んでよく知らない人が「SREの仕事」が何か誤解してしまうのは仕方ない気がする。かといって、紙幅の都合もあるだろうし。僕ならなんと書くだろう。 / …”
原因と対策を開示してくれるのが良いなー >>
日本だとSREをやめてしまう方向に行きがち…
ポストモーテムが発行されたので、SREの考え方から『賞賛』します!👏
安定性を担保するためのアクションが別の問題を引き起こすのあるあるで心が苦しい/
「リソースの使用量が増えてたため、リソース使用量を減らすための処置を行った」って、文字面だけを見ると「システム負荷が増えたけど、サーバリソース減らした」ということで、間違ったオペレーションのように思える。
Googleレベルだとちょっとでも負荷分散の考慮漏れがあるだけで即死するのだという学び
GoogleのSRE大変やなぁ
これでSREの知名度がまたあがるだろう。
エラーバジェット使っただけの話だと思う /
“報告では障害の原因が、ストレージ内のリソースを削減しようとしたSRE(Site Reliability Engineer)による構成変更にあったと説明” /
そうなんだ
これ記事の「SRE」への触れかた、ちょっと変な感じ。見だしのトーンが違和感あるのかな。本文の方ではそもそもストレージのアラートを受けてのアクションだったことは書いているのだけれど。
選手のGmail障害、最適化による障害だったのか…
シッカリして欲しい!と上から目線で言うにはあまりにも複雑な仕組みなんだろうけど
Discover(Google)から
「ストレージ内のリソースを削減しようとしたSRE…による構成変更にあったと説明」

/
社内のBLOBサービスのストレージリソース使用を減らそうと設定いじったら、全体のBlobデータ参照機能に過負荷がかかったって恐ろしい、、本家SREは大変だ
以上

記事本文: SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告 - Publickey

関連記事