摘要
- SRE Workflow
- Code define Config
- 拜占庭将军问题
Workflow
- SREcon: Performance Checklists for SREs 2016 | Brendan Gregg’s Blog
- OS 造成的长时间非典型 JVM GC 停顿:深度分析和解决|庄振运
Discuss
NASA:可以告知故障的机器
COMSoL综合系统健康管理(Integrated System Health Management)软件的第一个版本于2003年在NASA艾姆斯研究中心(Ames Research Center)被开发出来,以此来监视一个试验型固液混合火箭发动机试车台。
Application
Code define Config
Monitor
Chris Jones:分布式共识系统
Minghua Ye:App Engine
Minghua Ye
scalable system
automated service discovery
google protocol buffer
core lib c++
分布式共识系统
CAP:无人值守的一致的高可用系统是不存在的
CA系统:分区难题 脑裂 如何判断主从
CP系统+A:接受分区,在分区的情况下保持一致,牺牲一定损失
Zookeeper
拜占庭将军问题
稳定状态需要 3N+1(拜占庭式失败)或2N+1(非拜占庭式失败)个实例。即多进程达到一致单点故障源
复制状态机(RSM),很久不动的冷备没有意义,风险更高。
应用:分布式cron系统
无状态微服务系统,先要有一个保障一致性(存储状态)的可靠服务。
扩展阅读:DevOps 漫谈系列
DevOps 实践的本质是文化
- 学习力-团队生命之根
- 带领团队翻译书籍
- Don’t make me think
- 凡是被很多人不断重复的好习惯,要将其自动化整合到工具