拜读《监控的自我修养,过去十年和未来十年》,有一些感想。

从 falcon 的最早的用户,到成为 falcon 的开发,再到基于 vm 底层存储打造全新的监控架构体系。一恍7、8年过去了:)

prometheus 流行的原因,其实是抱对了大腿,赶上了好时代,随着 k8s 的普及,云、云原生被越来越多人提及。 尤其行业内,言必及 prometheus,连我们从未使用过 prometheus 的同学,都开始聊联邦,聊 remote_write/read。

prometheus 虽流行,但自身的一些固定甚至是固执的范式,和初期单机版的定位,使得后来者诸如 thanos/cortex/vm/m3 等解决方案日趋受欢迎。 尤其 vm 在入口支持 pull + push 的方式,解决了 prometheus 在数据摄入逻辑固执己见带来的业内采集方式的纠结甚至是口水战。当然最近 2 年也看到 prometheus 有了一些“改进”。

很高兴看到 Nightingale 在架构方面的转变,敢于推陈出新,离云原生监控更近了一步。

个人斗胆对云原生监控的技术做一下未来“预测”:

  1. 监控架构的内部技术闭环是监控能够云原生的重要抓手
  2. pull+push 采集在未来缺一不可,东风压倒不了西风,一味痴迷其一的,定会食其恶果
  3. 报警会逐渐聚焦在 slo 上,而非面面俱到
  4. 虽然各种成本在云时代有所下降。采集的内容仍不会“应收尽收”,也不会像现在这样“高度抽象”。起码在存储架构有突破之前,成本仍是制约采集内容向“应收尽收”所谓可观测目标的最大“障碍”
  5. MTL(metrics, traces, logging) 的打通是过去和未来几年的最重要的产品形态
  6. 相对报警能力,多样化的看图产品会变得愈发被需要
  7. 多副本的内存 TSDB + 廉价长期存储会变的越来越流行

-EOF-