ばばさんがお勧めする「SRE入門」と「SRE入門の入門」に効く書籍や文章

目次

はじめまして。ばばと申します。 インターネットではnetmarkjpと名乗っています。

X(旧Twitter)にて自分の目に触れた情報をハッシュタグ #ばばさん通信ダイジェスト でしつこく共有しています。最近エクスポートしたデータによると2019/2/22から続けています。執念深いですね。

お仕事ではSREサービスや、SRE/オブザーバビリティの導入・定着支援をしている株式会社X-Tech5のCTOをしています。そんなわけで、バックエンドエンジニアであったり、インフラエンジニアであったりさまざまなスタートラインの方々に、SREの考え方をお伝えしたり実践を支援したりしています。

そう。入門・導入あたりのお話をすることが多いのです。

新しい世界のセオリーや基礎知識、価値観の獲得には、書籍などのまとまった文章がお勧めです。

というわけで、わたしが現場でお勧めしている 「セオリーや基礎知識、価値観を知る」 のに効く書籍や文章、つまり「SRE入門」と「SRE入門の入門」に効く書籍や文章を紹介します。

順番にこだわりはないですが、紹介していく順につまんでいって、読み切れたら読み切る。もし途中で飽きたら次に行って、一周したら戻る、みたいな感じで読んでいくといいと思います。

※わたしは「SREの基礎知識を知る」と同じくらい、あるいはそれ以上に「世界観を理解する」と「ICT技術に関わらないメタスキルを知る」が重要と思ってます

世界観を理解する

📓『Why Software Is Eating the World』

Why Software Is Eating the World | Andreessen Horowitz

すごく有名なのでご存じの方も多いと思います。Marc Andreessenさんが書いた2011/8/20のThe Wall Street Journalの記事です。

雰囲気で訳すと「なぜソフトウェアが世界を食べ尽くすのか」とか「ソフトウェアが世界を席巻している理由」といったところでしょうか。

(少なくともわたしの周りでは)SREsになるかたのうち相当数は元インフラエンジニアでSysadminアプローチでやってきた方です。SREをやっていくとソフトウェアエンジニアリングをやっていく方向性になりますが、じゃあなんでソフトウェアエンジニアリングなんだっけ?なんでソフトウェアなんだっけ?という話の裏には「ソフトウェアの凄さ、ヤバさ」があるわけです。

この「ソフトウェアのヤバさ」を象徴するような文章です。

具体的に「技術的にだから何?」ということは書いていないので物足りないかもしれませんが、SREになるということは「ソフトウェアのヤバさ」活かしていくことでもあり、一読をお勧めします。

ブラウザーの翻訳ツールを使って読むと良いでしょう。わたしはいつもそうしています 🤤

📓『Team Geek』

O’Reilly Japan - Team Geek

SREはじめDevOpsを是とする世界にいるエンジニアの多くが想像する"チームの姿"の源流がここにあります。たぶんね。

とても読みやすく、スルスルとSREなどをやっていくときの前提になっている価値観に触れられる良書です。

たとえばソーシャルスキルの三本柱「HRT」なんかが好例ですね。優れたチームをどうしたら作れるのか、あるいは探せるのか考えるときの前提条件みたいなものだと思います。

  • Humility:謙虚
  • Respect:尊敬
  • Trust:信頼

HRTを お互いに 実現するのが第一歩なのですよね。わかる。

新しい世界観に触れるわけですから、誰かにとって自明であっても改めて明示するのは大切です。

📓『LeanとDevOpsの科学』

LeanとDevOpsの科学[Accelerate] テクノロジーの戦略的活用が組織変革を加速する - インプレスブックス

SREはDevOpsと深く関わりがあります。なんせ SRE implements DevOps (Java風に)ですから、SREの世界観はDevOpsの世界観を下敷きにしています。

本書では組織全体のパフォーマンスを上げるには、ソフトウェアデリバリーのパフォーマンスを上げるには、職務満足度を上げるには、バーンアウトを減らすには……といったことが語られています。これが技術書なの?と思われることもありますが、これがSREやDevOpsの世界観(の一部)なのです。

新しい世界の新しい価値観がなぜ重視され、どのような機序を持つ(と考えられている)のかを知るのに良い書籍です。これがわかっていると安心して進めるし、安心して戻れるし、安心してYESともNOとも言えると思います。

SREの基礎知識を知る

📓『SRE サイトリライアビリティエンジニアリング』

O’Reilly Japan - SRE サイトリライアビリティエンジニアリング

通称『SRE本』です。ものすごーく厚くて、全部で500ページ超え。でも、 まずは第一部だけ でいいです。第一部だけなら100ページくらいなので安心ですね。もちろん興が乗ったらどんどん読み進めていただくのが良いです。読み切れたら猛者ですね。猛者。

わたしは当時勤めていた会社で輪読会をやって、なんとかゴールしました。

英語版は無償公開されているので、こちらを読むのも良いでしょう。なお文中のSRE(Site Reliability Engineering)とSREs(Site Reliability Engineers)の使い分けを正確に知りたい場合は英語版を読むのが良いです。

Google - Site Reliability Engineering

📓『SREエンタープライズロードマップ』

SREエンタープライズロードマップ - Google - Site Reliability Engineering

副題は『SREを導入し継続する方法』です。

0からシステム・組織・体制を作ることは稀ですから、ほとんどの場合は既存のシステム・組織・体制でSREに取り組んでいくことになります。そんなときの心構えとか捉え方みたいな、プラクティスの手前の計画や設計、方向性のレベルで指針になる心強いガイドです。

60ページ弱と非常に簡潔で読みやすいです。すごくおすすめ。

「SREを導入するため」というよりは「SREingを実現するため」のガイドという感じです(SREing=Site Reliability Engineeringを実践すること)。

特にいままでシステム運用に携わってきた方と会話するときによく引用するアレコレが満載です。

現状に関わらず、SREの導入で最も成功するのは、既存のフレームワークと真っ向から戦うのではなく、進化させ、補完することを選択した場合です。

ITILはフレームワークであり、SREはプラクティスの集合体なので、両者に互換性はありますが、例えば「保証(warranty)」「有用性(utility)」など、用語の翻訳には困難が予想されます。また、SREは変更管理やサービスオーナーシップなどの分野で強い考え方を持っているため、結果が一致していてもやり方を調整する必要があることを肝に銘じてください。

DevOpsとSREの取り組みを両立させるためには、現実的であることが必要です。

特定の組織で SRE を導入するベストプラクティスは 1 つではありません。正しい方法は、あなたが成功した方法だけです。私たちは、複数の組織で何がうまくいき、何がうまくいかなかったかについて、かなり研究の恩恵を受けていますが、そこで見つかっていない新たな間違いをあなたが経験することは避けられません。このような組織の経験を真の学習ツールとして利用し、組織に改善の好循環を構築してください。

文言上は守れても精神的には守れないような網羅的なルールを設定するよりも、核となる原則に集中することを奨励する方がよいでしょう。

システムは常に変化しているため、「完璧な」ダッシュボードよりも使い勝手の良いツールを重視しましょう。

あなたのSREのバージョンが Googleのものと完全に一致する必要はありません。原則だけは一致させてください。

引用が尽きないのでこのへんで。

📓『オブザーバビリティ・エンジニアリング』

O’Reilly Japan - オブザーバビリティ・エンジニアリング

オブザーバビリティ(可観測性)のことを考えるときには、この本は外せません。

簡単に言うと、私たちが考えるソフトウェアシステムの「オブザーバビリティ」とは、システムがどのような状態になったとしても、それがどんなに斬新で奇妙なものであっても、どれだけ理解し説明できるかを示す尺度です。

ということですが、あまり難しく考えずとも「本番環境のシステムが実際に本当にどう動いてどういう状態になっているのか知りたい」ですよね?

まず個人レベルの興味としては賛同してもらえることが多いです。加えて、いろんなステークホルダーがいる中でシステムと理性的につきあうにあたって、システムの実際の状態や挙動を事実として知ることができるのは、ものすごく大切です。

これは別にSREに限らない話で、次に登場するOODA LOOP(ウーダループ)の最初の O は Observe の O です。つまりSREに知見があろうがなかろうが、もっと言うとエンジニアであろうがなかろうが、成果に興味関心があるならばオブザーバビリティの重要性は理解してもらえるはずです。

あと表紙の動物がかわいい。タテガミオオカミだそうです。キツネ系だと思ってました。

ICT技術に関わらないメタスキルを知る

📓『OODA LOOP(ウーダループ)』

OODA LOOP(ウーダループ) | 東洋経済STORE

リード文に『次世代の最強組織に進化する意思決定スキル』とあるとおり、行動を計画し実行していく意思決定の思考法に関する書籍です。

不確実で変化の速い状況において、解消しきれないリスクを管理しながら、少しずつ状況に対処して成果を出していくための思考法・方法論が学べます。

この手の話のご多分に漏れず、言うは易く行うは難しですが、SREの思想や理念と非常に相性が良い思考法や方法論だと思います。

ICT技術の文脈ではなくビジネスフレームワークの文脈で語られることが多いので、ICT技術に疎いかたとの会話で引き合いに出すとウケが良かったり理解してもらいやすくなるのも良いところです。

📓『ザ・ゴール』

ザ・ゴール | 書籍 | ダイヤモンド社

原著は1984年、日本語訳は2001年に出版されたビジネス小説です。そんな頃にはまだ生まれてないわー、という方も多いかもしれませんね、、、とても有名なビジネス小説です。わたしは学生時代に父に勧められて読みました。

制約理論(TOC:Theory of Constraint)がテーマになっています。制約理論は特にビジネス領域だけで適用できる理論ではなく、エンジニアリングでも大活躍しますよ。特にパフォーマンスチューニングなどのシーンで活用できる考え方が学べます。

なおシリーズが色々ありますが、わたしは最初のだけ読んでおけばひとまず必要十分と思います。

さいごに

Nice to haveという意味で「読んでおいたほうがいい本」はもっともっと、、、もの凄くたくさんあります。ありますが、まずはこのくらいの知識があると旅立ちのお供にちょうどいいと思います。

土台と前提条件を合わせるのって難しいですね。