005号(2024/10/01)
巻頭言:CrowdStrikeのインシデントを掘ってみる
書いた人:しょっさん( @syossan27 )
CrowdStrikeのインシデントによるWindowsブルースクリーン問題を掘ってみます。
仕組み化とドキュメンテーションで CTO の1人 “Always On-Call” 状態をなんとかする
書いた人:Hiroki Takatsuka (tk3fftk)( @tk3fftk )
CTO の1人 Always On-Call
状態をなんとかするために、 On-Call ローテーションを整備しました。
また、単にローテーションを組むだけでは今後スケールしないことが予想されたため、3つの施策を行いました。
ペアーズで実践している、オーナー不在のサービスを引き受ける際の心得
書いた人:Takumi Ogawa(ogady)( @ogady )
退職や組織変更などによりオーナー不在になってしまったサービスを引き受けた時に、どのように対応しているかをご紹介します。
Embedded SREが負荷試験を進める上で学んだ、押さえておくべきポイント
書いた人:たかしゅん/moko-poi( @1341Shun )
Embedded SREとして負荷試験に関わり、学んだことについて共有します
オンコール運用を劇的改善!ツール導入で見つけた成功のカギ
書いた人:Yuta Kawasaki(ゆーた)( @yuta_k0911 )
PagerDutyを導入し、オンコール運用を改善してみた
とあるSREの一日
書いた人:あおい( @_a0i )
この記事は、株式会社リクルートでSREとして働く女性、あおいによる「とあるSREの一日」を紹介しています。女性が少数派であるエンジニア業界において、私が楽しく充実した日常を送っていることを伝えることを目的としています。
ノウハウの宝庫! Ops Guidesを一緒に翻訳しませんか?
書いた人:jacopen( @jacopen )
PagerDutyが公開しているOps Guidesを日本語に翻訳するプロジェクトをはじめたので、参加者を募集します
自動ベストプラクティス追従アプリケーション基盤のManifests生成システム設計
書いた人:Yoshihiko Kato( @discord_tech )
アプリケーション基盤のManifests生成システムを開発する際に考えたこと、そして出した結論について解説します
大規模組織でオブザーバビリティツール導入を検討する際の勘所
書いた人:木村健人(AoTo)( @AoToLog_ )
「広範な機能」と「幅広い対象システム」から複雑となりがちな 「オブザーバビリティツール導入を検討する際の勘所」を柔らかくまとめてみました。