<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GoogleSRE on Marcos Blog</title><link>https://yujie70338.github.io/tags/googlesre/</link><description>Recent content in GoogleSRE on Marcos Blog</description><generator>Hugo</generator><language>en-us</language><lastBuildDate>Tue, 05 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://yujie70338.github.io/tags/googlesre/index.xml" rel="self" type="application/rss+xml"/><item><title>📗〔讀書心得〕- SRE Ch4：SLI、SLO 與 SLA 的實踐指南</title><link>https://yujie70338.github.io/post/books-reviews/site-reliability-engineering/2026-05-05-site-reliability-engineering-ch4-sli-slo-sla/</link><pubDate>Tue, 05 May 2026 00:00:00 +0000</pubDate><guid>https://yujie70338.github.io/post/books-reviews/site-reliability-engineering/2026-05-05-site-reliability-engineering-ch4-sli-slo-sla/</guid><description>&lt;h1 id="讀書心得--sre-ch4slislo-與-sla-的實踐指南"&gt;📗〔讀書心得〕- SRE Ch4：SLI、SLO 與 SLA 的實踐指南&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E8%AE%80%E6%9B%B8%E5%BF%83%E5%BE%97--sre-ch4slislo-%E8%88%87-sla-%E7%9A%84%E5%AF%A6%E8%B8%90%E6%8C%87%E5%8D%97"&gt;📗〔讀書心得〕- SRE Ch4：SLI、SLO 與 SLA 的實踐指南&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E7%82%BA%E4%BB%80%E9%BA%BC%E9%9C%80%E8%A6%81%E5%88%B6%E5%AE%9A%E6%9C%8D%E5%8B%99%E7%AD%89%E7%B4%9A%E7%9B%AE%E6%A8%99slo"&gt;為什麼需要制定服務等級目標（SLO）？&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E6%A0%B8%E5%BF%83%E4%B8%89%E8%A6%81%E7%B4%A0slislosla"&gt;核心三要素：SLI、SLO、SLA&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E6%9C%8D%E5%8B%99%E7%AD%89%E7%B4%9A%E6%8C%87%E6%A8%99sli%E9%87%8F%E5%8C%96%E6%9C%8D%E5%8B%99%E5%93%81%E8%B3%AA%E7%9A%84%E6%8E%A2%E9%87%9D"&gt;服務等級指標（SLI）：量化服務品質的探針&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E6%9C%8D%E5%8B%99%E7%AD%89%E7%B4%9A%E7%9B%AE%E6%A8%99slo%E5%9C%98%E9%9A%8A%E5%85%B1%E5%90%8C%E5%8A%AA%E5%8A%9B%E7%9A%84%E7%87%88%E5%A1%94"&gt;服務等級目標（SLO）：團隊共同努力的燈塔&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E6%9C%8D%E5%8B%99%E7%AD%89%E7%B4%9A%E5%8D%94%E8%AD%B0sla%E5%85%B7%E6%9C%89%E6%B3%95%E5%BE%8B%E6%88%96%E5%95%86%E6%A5%AD%E7%B4%84%E6%9D%9F%E5%8A%9B%E7%9A%84%E5%A5%91%E7%B4%84"&gt;服務等級協議（SLA）：具有法律或商業約束力的契約&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E5%A6%82%E4%BD%95%E6%89%BE%E5%88%B0%E7%9C%9F%E6%AD%A3%E9%87%8D%E8%A6%81%E7%9A%84-sli-%E6%8C%87%E6%A8%99"&gt;如何找到真正重要的 SLI 指標？&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E5%A6%82%E4%BD%95%E6%AD%A3%E7%A2%BA%E7%9A%84%E8%81%9A%E5%90%88aggregation%E6%94%B6%E9%9B%86%E5%88%B0%E7%9A%84%E6%8C%87%E6%A8%99"&gt;如何正確的聚合(Aggregation)收集到的指標？&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E5%A6%82%E4%BD%95%E5%AE%9A%E7%BE%A9%E6%AD%A3%E7%A2%BA%E7%9A%84-slo-%E6%8C%87%E6%A8%99"&gt;如何定義正確的 SLO 指標？&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E5%A6%82%E4%BD%95%E5%88%A9%E7%94%A8-slo-%E7%82%BA%E4%BD%BF%E7%94%A8%E8%80%85%E8%A8%AD%E5%AE%9A%E6%98%8E%E7%A2%BA%E7%9A%84%E6%9C%9F%E6%9C%9B"&gt;如何利用 SLO 為使用者設定明確的期望？&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#1-%E4%BF%9D%E6%8C%81%E5%AE%89%E5%85%A8%E7%B7%A9%E8%A1%9Dsafety-margin"&gt;1. 保持安全緩衝（Safety Margin）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#2-%E9%81%BF%E5%85%8D%E9%81%8E%E5%BA%A6%E9%81%94%E6%88%90dont-overachieve"&gt;2. 避免過度達成（Don’t Overachieve）&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E6%88%91%E7%9A%84-takeaway"&gt;我的 TAKEAWAY&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#extended-reference--fyi"&gt;Extended Reference ＆ FYI&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這篇文章將聚焦於《Site Reliability Engineering》中的：&lt;/p&gt;</description></item><item><title>📗〔讀書心得〕- SRE Ch3：擁抱風險與錯誤預算實務</title><link>https://yujie70338.github.io/post/books-reviews/site-reliability-engineering/2026-04-28-site-reliability-engineering-ch3-embracing-risk/</link><pubDate>Tue, 28 Apr 2026 00:00:00 +0000</pubDate><guid>https://yujie70338.github.io/post/books-reviews/site-reliability-engineering/2026-04-28-site-reliability-engineering-ch3-embracing-risk/</guid><description>&lt;p&gt;這篇文章將聚焦於《Site Reliability Engineering》中的：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="https://sre.google/sre-book/embracing-risk/"&gt;Chapter 3 - Embracing Risk&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;探討 SRE 如何重新定義可靠性，並運用&lt;strong&gt;錯誤預算&lt;/strong&gt;（Error Budget）這一核心工具，在風險與創新之間取得精準的平衡。&lt;/p&gt;</description></item><item><title>📗〔讀書心得〕- SRE Ch2：Google 生產環境與 Borg 架構解析</title><link>https://yujie70338.github.io/post/books-reviews/site-reliability-engineering/2026-04-23-site-reliability-engineering-ch2-from-the-viewpoint-of-an-google-sre/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://yujie70338.github.io/post/books-reviews/site-reliability-engineering/2026-04-23-site-reliability-engineering-ch2-from-the-viewpoint-of-an-google-sre/</guid><description>&lt;h1 id="讀書心得--sre-ch2google-生產環境與-borg-架構解析"&gt;📗〔讀書心得〕- SRE Ch2：Google 生產環境與 Borg 架構解析&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E8%AE%80%E6%9B%B8%E5%BF%83%E5%BE%97--sre-ch2google-%E7%94%9F%E7%94%A2%E7%92%B0%E5%A2%83%E8%88%87-borg-%E6%9E%B6%E6%A7%8B%E8%A7%A3%E6%9E%90"&gt;📗〔讀書心得〕- SRE Ch2：Google 生產環境與 Borg 架構解析&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E7%A1%AC%E9%AB%94%E6%95%85%E9%9A%9C%E6%98%AF%E5%B8%B8%E6%85%8B%E8%BB%9F%E9%AB%94%E5%AE%9A%E7%BE%A9%E7%9A%84%E7%A1%AC%E9%AB%94%E7%AE%A1%E7%90%86"&gt;&lt;strong&gt;硬體故障是常態：軟體定義的硬體管理&lt;/strong&gt;&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#borg-naming-servicebns"&gt;&lt;strong&gt;Borg Naming Service（BNS）：&lt;/strong&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#google-%E7%9A%84%E5%84%B2%E5%AD%98%E7%B3%BB%E7%B5%B1%E5%A4%9A%E5%B1%A4%E6%AC%A1%E6%9E%B6%E6%A7%8B"&gt;&lt;strong&gt;Google 的儲存系統：多層次架構&lt;/strong&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#google-%E7%9A%84%E8%BB%9F%E9%AB%94%E5%9F%BA%E7%A4%8E%E8%A8%AD%E6%96%BD"&gt;&lt;strong&gt;Google 的軟體基礎設施&lt;/strong&gt;&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E5%85%A7%E9%83%A8%E9%80%9A%E8%A8%8A%E5%BE%9E-stubby-%E5%88%B0-grpc"&gt;&lt;strong&gt;內部通訊：從 Stubby 到 gRPC&lt;/strong&gt;&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a href="#google-%E7%9A%84%E9%96%8B%E7%99%BC%E7%92%B0%E5%A2%83%E5%96%AE%E4%B8%80%E7%A8%8B%E5%BC%8F%E7%A2%BC%E5%BA%AB"&gt;&lt;strong&gt;Google 的開發環境：單一程式碼庫&lt;/strong&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E4%B8%80%E5%80%8B%E4%BD%BF%E7%94%A8%E8%80%85%E8%AB%8B%E6%B1%82%E7%9A%84%E6%97%85%E7%A8%8B%E5%BE%9E%E9%BB%9E%E6%93%8A%E5%88%B0%E6%9C%8D%E5%8B%99"&gt;&lt;strong&gt;一個使用者請求的旅程：從點擊到服務&lt;/strong&gt;&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E5%9C%A8%E9%AB%98%E5%8F%AF%E7%94%A8%E6%80%A7%E8%88%87%E5%AE%B9%E9%87%8F%E8%A6%8F%E5%8A%83%E7%9A%84%E5%AF%A6%E5%8B%99%E8%80%83%E9%87%8F"&gt;&lt;strong&gt;在高可用性與容量規劃的實務考量&lt;/strong&gt;&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E6%88%91%E7%9A%84-takeaway"&gt;我的 TAKEAWAY&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#extended-reference--fyi"&gt;Extended Reference ＆ FYI&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這篇文章將聚焦於《Site Reliability Engineering》中的：&lt;/p&gt;</description></item><item><title>📗〔讀書心得〕- SRE Ch1：Google 如何用軟體工程思維打造可靠系統</title><link>https://yujie70338.github.io/post/books-reviews/site-reliability-engineering/2025-12-05-site-reliability-engineering-ch1-introduction/</link><pubDate>Fri, 05 Dec 2025 00:00:00 +0000</pubDate><guid>https://yujie70338.github.io/post/books-reviews/site-reliability-engineering/2025-12-05-site-reliability-engineering-ch1-introduction/</guid><description>&lt;h1 id="讀書心得--sre-ch1google-如何用軟體工程思維打造可靠系統"&gt;📗〔讀書心得〕- SRE Ch1：Google 如何用軟體工程思維打造可靠系統&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E8%AE%80%E6%9B%B8%E5%BF%83%E5%BE%97--sre-ch1google-%E5%A6%82%E4%BD%95%E7%94%A8%E8%BB%9F%E9%AB%94%E5%B7%A5%E7%A8%8B%E6%80%9D%E7%B6%AD%E6%89%93%E9%80%A0%E5%8F%AF%E9%9D%A0%E7%B3%BB%E7%B5%B1"&gt;📗〔讀書心得〕- SRE Ch1：Google 如何用軟體工程思維打造可靠系統&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E5%89%8D%E8%A8%80"&gt;前言&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E5%82%B3%E7%B5%B1%E7%9A%84%E7%B3%BB%E7%B5%B1%E7%AE%A1%E7%90%86%E6%96%B9%E6%B3%95sysadmin-approach"&gt;傳統的系統管理方法（Sysadmin Approach）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#google-%E7%9A%84%E7%B3%BB%E7%B5%B1%E7%AE%A1%E7%90%86%E6%96%B9%E6%B3%95sre"&gt;Google 的系統管理方法：SRE&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="#%E9%8C%AF%E8%AA%A4%E9%A0%90%E7%AE%97error-budget"&gt;錯誤預算（Error Budget）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E9%8C%AF%E8%AA%A4%E9%A0%90%E7%AE%97%E6%98%AF%E4%BB%80%E9%BA%BC%E5%AE%83%E5%8F%AF%E4%BB%A5%E5%B9%AB%E4%BD%A0%E8%B2%B7%E9%A2%A8%E9%9A%AA"&gt;錯誤預算是什麼？它可以幫你「買風險」&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a href="#sre-%E7%9A%84%E6%A0%B8%E5%BF%83%E5%8E%9F%E5%89%87"&gt;SRE 的核心原則&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#%E6%88%91%E7%9A%84-takeaway"&gt;我的 TAKEAWAY&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#extended-reference--fyi"&gt;Extended Reference ＆ FYI&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="前言"&gt;前言&lt;/h2&gt;
&lt;p&gt;在這個數位服務無所不在的時代，&lt;strong&gt;可靠性&lt;/strong&gt;與&lt;strong&gt;安全性&lt;/strong&gt;已成為最基本的期待。Google 所推動的 SRE（Site Reliability Engineering）體系，提供了一種以軟體工程思維為核心的系統運營方法，使全球級服務得以穩定運作並提升使用者體驗。&lt;/p&gt;</description></item></channel></rss>