【6/18 アウトプット】SREの定義とインシデント管理
さあ、今回もよろしくお願いします。今回はSREの定義と、Google社のインシデント管理について話したいと思います。
1)SREって何だっけ。
候補者のプロフィールにSREと出てくる。あー、どんなことをしている職種だっけなーー、思い出せない!ということがよくあります。今回はまず、SREとは何ぞやという所を整理したいと思います。
SREは、上記の図でいうとサーバーサイド側のインフラの部分に関わってくる職種です。仕事内容としては、システムの安定的運用を通してその信頼性を高めることです。もう一つ図を挿入したい。
SREが関わるのは主に開発の下流工程、デプロイ・公開から保守・運用の部分になります。一般的にデプロイの責任者的な役割を果たすのもSREだそうです。責任重大!!!
2)Google社のインシデント管理
https://cloud.google.com/blog/ja/products/gcp/incident-management-at-google-adventures-in-sre-land (SREの教訓:Googleにおけるインシデント管理とは)
今回はこの資料を用います。Googleは、インシデント発生時に、「誰かを責めたり罰したりしてはいけない」という考えをもっています。素晴らしい!!誰かを責めるのではなく、そのインシデントが今後起きないようにするための改善策を考える。なんと生産的なことか。そして、Googleは発生した全てのインシデントに対して「事後分析」をし、分析ドキュメントには共通のテンプレートを用います。そうすることで、「何が原因でインシデントが発生したか」のトレンドを追うことができるそうです。今後もっとSREについて深掘りしていけたらいいな〜!今回はこの辺りにします、ありがとうございました。