ノウハウの宝庫! Ops Guidesを一緒に翻訳しませんか?

目次

みなさんこんにちは!インシデント管理SaaSのPgaerDutyでプロダクトエバンジェリストをつとめているjacopenです。

さっそくですが、みなさんは普段、SREのプラクティスについてどのように学んでいますか?

すでに刊行されている書籍を参考にしたり、Webの記事を参考にしたりでしょうか。SRE NEXTなどのカンファレンスやミートアップの登壇を参考にすることもありそうですね。

今回、そんなみなさんにご紹介したいのがOps Guidesです。これはPagerDutyがSREをはじめとした運用に携わる方に向けて発信しているドキュメントです。

めちゃくちゃ大事なサービスを運営しているからこそ得られるノウハウ

自分がPagerDutyに入社したのは10か月ほど前なのですが、入ってみてこの会社はものすごく運用のことを考え抜いているんだなと驚きました。運用に関するドキュメントがバシッと整備されているし、障害に対する対応フローも完全に整備されています。メジャーなインシデントについては運用に関係のない社員でも対応状況を確認できるようになっており、万が一の際でもそれぞれのロールの人達が自分の責任を果たせるように情報共有がなされています。

それもそのはず。PagerDutyは世の中のシステムに万が一のことがあった際に、すやばく対応してもらうための通知や管理の仕組みを提供しているSaaSです。いざ障害が起こった際に、PagerDutyも障害が起きていて通知がこなくて気付けなかった、なんてことがあってはいけません。だからこそ、PagerDutyは自身の運用にものすごく気をつかっているのです。

もし周囲にPagerDutyユーザーがいたら聞いてみてほしいのですが、PagerDutyが障害でダウンしていて困った・・・という経験がある人はほとんどいないはずです。ものすごく安定しているサービスだし、それを実現するための努力は中から見ていても感心します。

そんな運用のノウハウを一般公開しています

さて、そんなノウハウが詰まったPagerDutyの運用ノウハウが、実は世の中に無償公開されているのはご存知でしたか?

その名も、Ops Guidesといいます。

Ops Guidesは分野ごとにドキュメントが別れています。執筆時点では、次のようなドキュメントが掲載されています。

  1. The Howie Guide
    • インシデント後のレビューに関するJeliのHowieガイドです。インシデントからの学習を改善するためのステップバイステップのマニュアルです。
  2. Full Service Ownership Guide
    • コードが本番環境でどのように機能するかをより深く理解することで、システムとサービスの信頼性を確保します。
  3. Incident Response
    • PagerDutyとそのユーザーが実践する、インシデント対応プロセスの詳細な概要です。
  4. Customer Service Operations
    • カスタマーサービスチームは、とくにインシデント発生時に、顧客体験の重要な要素です。その流れについて解説します
  5. DevSecOps
    • DevSecOpsがはじめての方、または何であるか、どのように実装するか疑問がある方向けです。このガイドで始めるのに役立ちます。
  6. Best Practices for On Call Teams
    • チームとマネージャーのためのオンコール対応に関する完全なリソースです。
  7. Autoremediation
    • インシデント対応プロセスで自動化を活用するのに役立つガイドです。
  8. Postmortems
    • 効果的なポストモーテムの実施方法に関する包括的なガイドです。非難のない文化を構築する方法を学びます。
  9. Operational Reviews
    • データ駆動の定期的なレビューを使用してインシデントの影響を測定し、リアルタイム運用の隠れたコストをより適切に管理します。
  10. Retrospectives
    • 作業プロセスと行動から反復的に学び、継続的な改善の文化を育成します。
  11. Security Training
    • PagerDutyで使用されているオープンソースのセキュリティトレーニングで、技術系・非技術系チーム向けに適応可能です。
  12. Internal Stakeholder Communications
    • 重大なインシデント発生時に、内部ステークホルダーに対する効果的なコミュニケーション戦略を構築します。
  13. Business Incident Response
    • 重大な技術的インシデントが発生した際に、ビジネスニーズと技術的ニーズをいかに調整するかを学びます。

いずれも、PagerDutyが内部向けに利用しているドキュメントを公開できるようにエッセンスを抽出したものです。

IncidentResponseについては実際にさまざまな方に参考にされ、ブログや書籍から引用されているのを目にします。昨年末にAdvent Calendarで紹介した際には多くの反響がありました。 本当に有用な内容が多いのでぜひ参考にしていただきたいと思っています。

英語しかない・・・から、翻訳しよう!

ただ、OpsGuidesを見てみてみなさんお気づきだと思うのですが、現時点では英語なのです。

IncidentResponseについては有志が翻訳してくれたものが存在するのですが、他のドキュメントについては英語しかありません。英語に抵抗のない方ならいいのですが、できれば日本語版もあったほうが嬉しいですよね。

そこで、PagerDutyのユーザーコミュニティを中心に、翻訳プロジェクトを立ち上げることになりました!

もともとのOpsGuidesについても、オープンなライセンス(Apache 2.0)で、GitHub上で公開されています。なので、同じライセンスでGitHub上にリポジトリを作成し、そこでPullRequestを受け付ける形で翻訳作業を進められるようにしました。

まずは次の3ドキュメントについて翻訳を進めようと考えています。

これらが終わり次第、他のドキュメントについても順次翻訳します。

どなたでも翻訳作業にご参加いただけますが、作業の重複を防ぐため、ご協力いただける方はぜひPagerDutyのユーザーコミュニティSlackにご参加ください。PagerDutyユーザーでなくても参加できます。

よりよいプラクティスを広めていくため、なにとぞご協力ほどよろしくお願いします!