本文记录一个sre一天的工作
背景交代:80后、单身
职位:sre
公司:规模不小但sre团队组建不久

以下是正文

6:16 惊醒
最近总是做些关于以前的人和事的梦,难道是老了开始怀旧了?发条微博感慨下。
看了下短信、IM。昨晚有几条业务的报警,呃,电脑离得有点远,又舍不得温暖的被窝,一会儿再去看下

6:20 强迫症
手机里所有有提示的app,都打开一下以消灭右上角的红色数字。美拍里有个翻唱排行榜的用户,听起来很不错,听了几首

6:40 起床
去个洗手间,顺便洗把脸

6:50 电脑
扫一眼邮件,昨天我总结的case study有rd更新了一下,讲到接口meantime不稳定与其服务localcache增长导致gc抖动有关,在尝试从代码层解决,但我认为这可能不是根本原因,还是因为依赖层的服务挂掉的关联性更大一些

6:55 处理报警
先看昨天的x集群的swap使用情况,昨天x集群整体有个a服务swap瞬间疯长,为防止影响x集群自身服务,已通过批量重启a服务缓解,随便找出几台x集群的节点观察下,从graph上来看a服务没有发飙的迹象;
b服务thrift的一个接口,meantime在3:10的时候抖了一下,只是一个尖峰,其他节点没有报警,扫一下其他报警,看看有没有相关联的;
c服务的一个获取队列size的指标在1:40 - 2:20之间超过阈值,引起报警。其他graph暂时没有线索,发到IM上,告知RD一下;

7:10 微信
妹妹提醒,今天可以买5.3的回程票了。
好多年五一没回家了,今年正赶上父亲的祭日。2年的时间,过去的好快。
顺便发会儿呆,看看北京外面的高楼大厦。天气不怎么样。
和妹妹聊一会儿。她最近在搞自己的公司,我也帮不上什么忙,只能干看着。

7:20 行事历
下午有个rd串讲服务

7:25 微博
刷一刷,看看有什么感兴趣的内容。
嗯?有个相互关注的妹子发了条生日快乐的微博,这是过生日了?赞一下
嗯?都说Apple会出rMBA。关我鸟事!
嗯?jdk 7要end of life了。关我鸟事!
嗯?iPhone 6s据传升级到2G内存了。关我鸟事!反正我今年绝对不换手机了。
嗯?今天元宵节了。关我鸟事!嗯,记得一会儿给老妈打个电话

7:40 闹铃
人到了年龄,比闹铃都早,悲剧!

8:00 想法
突然有了一个想法,想把自己的一天用文字的形式记录下来。
恩,就这么干,先用wiz笔记简单记下来,无所谓格式了,晚上收工的时候发到blog上。

8:16 音乐
“繁星点点 - 庄心妍”,刚好放这首歌,很不错。

8:25 IM、邮件
各种IM上看看
个人邮件收一收,其实没什么重要的事,就是想把它置为已读。:-D

8:35 洗漱

8:50 电影
看到复仇者联盟2的预告。嗯,可以去电影院看看那种。
本人看电影的分类就两种,值得去电影院的和在电脑上看就可以的。

9:00 准备上班
打算路上看看有什么吃的,胃有点不舒服。

9:30 班车
公司有班车,算是个福利。
半路买了个煎饼,当做早餐

9:45 公司
15分钟车程,到公司了
路上和老妈聊了一路。聊家里的事,聊我这边的事
有几条报警,一台nginx的flume堵了,应该问题不大,size在逐渐变少

10:00 报警报警报警
一个集群连接db出现问题,导致有2分钟的meantime抖动

10:10 沟通
凌晨的报警,rd回复,凌晨时有全量同步,消费不了就会触发报警
优化点 && 报警策略调整点

10:20 优化
rd发来消息,问起某接口http调用公网改内网的资源准备进度,事实上已经准备ok了,rd会在今天上线。

10:30 资源
rd申请vm用于多机房部署,但b机房资源紧张,需要从线上挤出几台vm

10:40 oom
一台hbase机器,有个Python程序占用大量mem和swap。机器归属人员不明
IM上询问,无人响应。
最后那个Python程序被oom了。。
看了下最近登录情况,只有我一个人登录。
机器调用关系链也没看到有业务机器连接,IM上打声招呼,开始准备下线了。

11:20 idea
服务在应用层上的调用关系不明朗,决定将负责的服务都整理一下。
工具暂定为graphviz + Python
下午知道我们有同事在做这方面东西,直接使用,不造轮子了

11:40 沟通
和rd讨论了几个关于服务、资源的问题

11:50 学习
看了下淘宝的关于鹰眼的分享ppt

12:00 返程票
抢个返程票

12:20 午饭

13:30 休息

15:00 串讲
rd串讲了几个服务,thrift的http的都有。
边讲边讨论,6、7个服务,2个小时时间
谈了下如何整理接口关系和运维的手段

17:00 整理
看了下上面串讲那些服务的wiki描述、监控、现有一个半成品的类似taobao鹰眼的工具看了看调用关系

18:50 资源
上午提到的资源紧张问题,释放了我用于上报nginx状态的机器,这机器原来是用于线上测试的,配置较高,非常时期,又申请了一台低配节点完成原来的功能,前后花了10分钟不到。且包括了沟通的时间。
观察上报服务正常运行

19:10 下班。
回家叫个外卖

20:00 shit
上面说的nginx状态上报服务,因新申请的vm配置太低,而网络请求又比较频繁,所以cpu sys time 100%。请同事升级下cpu。

20:20 计划
今日工作整理一下,再列一下明天的计划。
收工

-EOF-