TOP > ネタ・話題 > Googleの徹底的なシステム障害への対応「SRE」の中身とは? - GIGAZINE

Googleの徹底的なシステム障害への対応「SRE」の中身とは? - GIGAZINE

16コメント 2020-03-17 06:02 | GIGAZINEキャッシュ

インターネット上でサービスを提供する企業では、いかに自社のシステム障害と向き合うかが重要です。検索エンジンやクラウド、メール、広告など、さまざまなサービスを提供しているGoogleが、自社が提唱しているシステム管理の方法論「SRE」に基づき、システム障害にどう対応しているかを実際の事例をもとに紹介しています。...

ツイッターのコメント(16)

実際には自動化コストもあるので厳密に達成するものではないだろうけれど、良いスローガンだと思う。
「SREのチームは「すべての障害は未経験であるべきだ」という言葉をよく使うそうです。」
「SREの考え方とか心構えを学ぶのにはどうすればいいですか?」

という問いに対して

「まずめ組の大吾を読むのが良い」

という回答を用意してるのですが、未だその質問を受けたことがないのでした。
すべての障害は未経験であるべきだ/
ラックが倒れたら即座に大影響出てただろうけど傾く程度で循環液回らなくなるのか -
凄い。Googleに見る徹底したシステム障害対策。個人のスキルに頼るのではなく、組織として方針が貫かれている。
「すべての障害は未経験であるべきだ」
カッコええなー!!!
すべての障害は未経験であるべきだ
GoogleのSREの例

すごい簡単に言うと「同じ失敗は繰り返すな」って話
(障害=失敗ではないけどね)

巨大企業でも、考えてる事は変わらない

叱責するのではない
「障害は発生するもの」として受け入れて、淡々と解決・改善していく

長期的に見て、組織が成長することが大事
サーバエラーの原因の一例がおもろすぎる
SREのチーム「すべての障害は未経験であるべきだ」
障害が起きないようにする技術vs障害が起きることを前提に可用性を確保する技術
「すべての障害は未経験であるべきだ」は格言だな…
ほー、これがSREか
以上
 

いま話題のニュース

PR