一个普通sre一天的工作记录
本文记录一个sre一天的工作
背景交代:80后、单身
职位:sre
公司:规模不小但sre团队组建不久
以下是正文
6:16
惊醒
最近总是做些关于以前的人和事的梦,难道是老了开始怀旧了?发条微博感慨下。
看了下短信、IM。昨晚有几条业务的报警,呃,电脑离得有点远,又舍不得温暖的被窝,一会儿再去看下
6:20
强迫症
手机里所有有提示的app,都打开一下以消灭右上角的红色数字。美拍里有个翻唱排行榜的用户,听起来很不错,听了几首
6:40
起床
去个洗手间,顺便洗把脸
6:50
电脑
扫一眼邮件,昨天我总结的case study有rd更新了一下,讲到接口meantime不稳定与其服务localcache增长导致gc抖动有关,在尝试从代码层解决,但我认为这可能不是根本原因,还是因为依赖层的服务挂掉的关联性更大一些
6:55
处理报警
先看昨天的x集群的swap使用情况,昨天x集群整体有个a服务swap瞬间疯长,为防止影响x集群自身服务,已通过批量重启a服务缓解,随便找出几台x集群的节点观察下,从graph上来看a服务没有发飙的迹象;
b服务thrift的一个接口,meantime在3:10的时候抖了一下,只是一个尖峰,其他节点没有报警,扫一下其他报警,看看有没有相关联的;
c服务的一个获取队列size的指标在1:40 - 2:20之间超过阈值,引起报警。其他graph暂时没有线索,发到IM上,告知RD一下;
7:10
微信
妹妹提醒,今天可以买5.3的回程票了。
好多年五一没回家了,今年正赶上父亲的祭日。2年的时间,过去的好快。
顺便发会儿呆,看看北京外面的高楼大厦。天气不怎么样。
和妹妹聊一会儿。她最近在搞自己的公司,我也帮不上什么忙,只能干看着。
7:20
行事历
下午有个rd串讲服务
7:25
微博
刷一刷,看看有什么感兴趣的内容。
嗯?有个相互关注的妹子发了条生日快乐的微博,这是过生日了?赞一下
嗯?都说Apple会出rMBA。关我鸟事!
嗯?jdk 7要end of life了。关我鸟事!
嗯?iPhone 6s据传升级到2G内存了。关我鸟事!反正我今年绝对不换手机了。
嗯?今天元宵节了。关我鸟事!嗯,记得一会儿给老妈打个电话
7:40
闹铃
人到了年龄,比闹铃都早,悲剧!
8:00
想法
突然有了一个想法,想把自己的一天用文字的形式记录下来。
恩,就这么干,先用wiz笔记简单记下来,无所谓格式了,晚上收工的时候发到blog上。
8:16
音乐
“繁星点点 - 庄心妍”,刚好放这首歌,很不错。
8:25
IM、邮件
各种IM上看看
个人邮件收一收,其实没什么重要的事,就是想把它置为已读。:-D
8:35
洗漱
8:50
电影
看到复仇者联盟2的预告。嗯,可以去电影院看看那种。
本人看电影的分类就两种,值得去电影院的和在电脑上看就可以的。
9:00
准备上班
打算路上看看有什么吃的,胃有点不舒服。
9:30
班车
公司有班车,算是个福利。
半路买了个煎饼,当做早餐
9:45
公司
15分钟车程,到公司了
路上和老妈聊了一路。聊家里的事,聊我这边的事
有几条报警,一台nginx的flume堵了,应该问题不大,size在逐渐变少
10:00
报警报警报警
一个集群连接db出现问题,导致有2分钟的meantime抖动
10:10
沟通
凌晨的报警,rd回复,凌晨时有全量同步,消费不了就会触发报警
优化点 && 报警策略调整点
10:20
优化
rd发来消息,问起某接口http调用公网改内网的资源准备进度,事实上已经准备ok了,rd会在今天上线。
10:30
资源
rd申请vm用于多机房部署,但b机房资源紧张,需要从线上挤出几台vm
10:40
oom
一台hbase机器,有个Python程序占用大量mem和swap。机器归属人员不明
IM上询问,无人响应。
最后那个Python程序被oom了。。
看了下最近登录情况,只有我一个人登录。
机器调用关系链也没看到有业务机器连接,IM上打声招呼,开始准备下线了。
11:20
idea
服务在应用层上的调用关系不明朗,决定将负责的服务都整理一下。
工具暂定为graphviz + Python
下午知道我们有同事在做这方面东西,直接使用,不造轮子了
11:40
沟通
和rd讨论了几个关于服务、资源的问题
11:50
学习
看了下淘宝的关于鹰眼的分享ppt
12:00
返程票
抢个返程票
12:20
午饭
13:30
休息
15:00
串讲
rd串讲了几个服务,thrift的http的都有。
边讲边讨论,6、7个服务,2个小时时间
谈了下如何整理接口关系和运维的手段
17:00
整理
看了下上面串讲那些服务的wiki描述、监控、现有一个半成品的类似taobao鹰眼的工具看了看调用关系
18:50
资源
上午提到的资源紧张问题,释放了我用于上报nginx状态的机器,这机器原来是用于线上测试的,配置较高,非常时期,又申请了一台低配节点完成原来的功能,前后花了10分钟不到。且包括了沟通的时间。
观察上报服务正常运行
19:10
下班。
回家叫个外卖
20:00
shit
上面说的nginx状态上报服务,因新申请的vm配置太低,而网络请求又比较频繁,所以cpu sys time 100%。请同事升级下cpu。
20:20
计划
今日工作整理一下,再列一下明天的计划。
收工
-EOF-