013号(2026/06/15)

目次

寄稿記事

巻頭言:「AIの皮肉」という考え方

書いた人:しょっさん( @syossan27

QCon San Francisco 2025 の J. Paul Reed 氏によるセッション「The Ironies of A2 I2」の紹介を通じて、AIをインシデント対応に持ち込むことの「皮肉」を掘り下げる巻頭言です。自動化が問題を隠蔽してしまう「自動化の皮肉」、AIの予測可能性の低さや信頼度の読み取りにくさ、効率性と徹底性のトレードオフ(ETTO)を整理し、看護師を対象とした研究から「AIが説明を伴うと人間の判断能力が増幅される」という示唆を紹介します。結局のところAIは使い方次第、という身も蓋もない、しかし示唆に富む結論に至ります。

AIエージェントとSRE - o11yをどう見直すか

書いた人:ryuichi_1208( @ryuichi_1208

SREにAIエージェントを取り込むアプローチをCopilot型/AIOps型/Automation型の3つに整理して実在プロダクトを地図にしたうえで、AIエージェント時代にo11y基盤をどう見直すべきか(統合・構造化・ノイズ削減・調査の型・導入ロードマップ)を論じます。

「SREは信頼性、PEは生産性」に引っかかったので、“信頼性"を考え直してみる

書いた人:hym( @hymaaa_k

「SRE=信頼性、PE=生産性」という二分法に疑問を呈し、信頼性を「事業の価値を継続提供する状態」と再定義する。ビジネス毎に異なる信頼性の形を捉え、手法は違えど共に価値を守る重要性を説く記事になっています。

一人目エンジニアとして取り組んだ「攻めの」SRE

書いた人:tyki( @tyykid16

エンジニアが0人のスタートアップに一人目の正社員エンジニアとして入って取り組んできた「攻めの」SRE活動の振り返り。開発速度を落とさずに安全にリリースし続けるための仕組みづくりについて。

ITILはSREの味方です

書いた人:ばば/netmarkjp( @netmarkjp

現代のITILはSREの味方だし、ITILの指針は強力な「共通言語」として実践的に役立つんだということを、皆さんに知ってほしいです

国内外のSRE記事

When DNSSEC goes wrong: how we responded to the .de TLD outage

Cloudflare の Sebastiaan Neuteboom 氏、Christian Elmerot 氏、Max Worsley 氏の3名による共著記事です。

2026年5月5日、ドイツの.deレジストリDENICが鍵ローテーション中に不正なDNSSEC署名を配信し、世界中の検証リゾルバが仕様どおりに該当ドメインを拒否しました。これは、攻撃でも障害でもなく、運用ミスがフェイルセーフを「閉じる方向」へ倒した事例です。Cloudflareの対応として、まずserve stale(RFC 8767)で時間を稼ぎ、最終的に.deへのNegative Trust Anchor適用で復旧した約3時間の意思決定が克明に書かれています。これは、「検証は設計通り正しく動いた、だからこそ被害が拡大した」という構造です。

The post-mortem problem

インシデント管理SaaSを提供する incident.io社のブログ記事です。多くのチームがポストモーテムを実施しながら「機能していない」と感じています。著者はその原因を表層的な症状(テンプレが長い・時間がない・誰も読まない)と切り分け、本質を「communicationがcompliance artifactに変質した」という一文にまとめられています。AIによるポストモーテムの下書き生成については「白紙を越えさせる手段であって、思考を越えさせる手段ではない」と線を引き、要約はAIに、whyと説明責任は人間に、という分担を明示しています。「45秒のレプリケーション遅延」のような具体性こそ学びを駆動する、という指摘は、自社のポストモーテムを今日見直すための即効薬になります。

Inside the LLM Call: GenAI Observability with OpenTelemetry

OpenTelemetry コミュニティの公式ブログ(GenAI Semantic Conventions / Instrumentation SIG)による記事です。AIエージェントが単純な問いに45秒かかったとき、原因がモデルなのか、ツール呼び出しなのか、リトライループなのかを切り分ける――そのための観測標準としてのGenAI Semantic Conventionsを解説します。invoke_agent→chat/execute_toolのスパン木構造、トークン使用量・モデル識別子・終了理由といった属性体系が整理されており、VS Code CopilotやClaude Codeが既に標準テレメトリを出している点も実用的です。

Testing in Production: Strategy, Tools, and Trade-offs

AIテスト自動化プラットフォームを提供するContextQA社のブログ記事です。「事前テストは正しさを、本番テストはふるまいを検証する。両者は互いの代替にならない」というMartin Fowlerの整理を起点に、カナリア・フィーチャーフラグ・ダークローンチ・外形監視・カオスエンジニアリングの5技法を体系化した実務的な総説です。QAとSREの境界が「正しさ/ふるまい」という軸で言語化されており、本番テストは合流点ではなく、両者が問いを持ち寄る場となっています。

AI in SRE: Where and how Google is deploying agentic AI to improve operations

Google の Stevan Malesevic氏(Distinguished Software Engineer)と Christopher Heiser氏(Distinguished Site Reliability Engineer)による共著記事です。Googleが「SRE AI」と呼ぶエージェント型AIの導入方針を公開した一次情報で、注目すべきはAIの能力ではなく統制の設計にあります。エージェントに強いID(役割と権限)を割り当て、検討して却下した選択肢まで説明させ、自律レベルを段階で追跡する。基盤はGemini/ADK/MCPサーバで、外部顧客向けと同じインフラを社内SREでも使う設計となっています。異常検知にはBigQuery ML上のTimesFM、過去インシデント再利用にはGemini埋め込み+ベクトルDBという技術選択も具体的です。

複数の AI を使い分けて新たな施策に次々と取り組んだ SRE の働き方 [DeNA インフラ SRE]

DeNA社の渡邊氏による記事です。同氏が、自律型エージェント(Devin)・AI統合エディタ(Cursor)・汎用チャット(Gemini)の3種を性質で使い分け、定常業務をこなしながら5施策を並行推進した実践記録となっています。「仕様の明確さ/ステークホルダー/フィードバック」の3軸で委任可能度を判断するフレームと、AGENTS.mdによるガードレール投資の好循環設計が紹介されています。また、Issue作成をDevinに任せて不要Issueが増殖したり、Web UI実装でDOM理解の限界に当たったり、といったリアルな失敗談も誠実に書かれている実践記事となっています。

クラウドネイティブ会議にSREチーム全員で参加しました!

株式会社ニーリーのSREチームによる共同執筆の参加レポートです。「信頼性を全員のものに」を掲げる同チーム全員が参加したクラウドネイティブ会議2026から、各メンバーが持ち帰った観点の幅に注目です。記事では、ログ基盤×Bedrock AgentCoreによる自然言語クエリ(Findy社)、CIで強制するProduction Readiness Checklist(キャディ社)、SRE主導から各プロダクトフェーズに最適なSLO設計(Topotal社)、AIコーディング時代の所有コスト(CyberAgent社)、Hardened Container Images(Docker社)が取り上げられています。