很多关于网站架构的文章都有提到监控的问题,但通常只是列出他们监控用的工具,比如 Pingdom, Munin, New Relic 等等,并没有说他们具体在监控什么,所以我的问题是:
在这方面我完全没概念,还请各位大牛指教。
首先要监控的是错误信息,例如 500 状态码 然后就是一般性的 qps 等访问方面的性能指标 最后是操作系统本身的状况,比如硬盘空间,系统负载,内存消耗等
第一行是错误监控,后面两类是阈值告警
在初期我會安裝 scoutapp 裝在 server 上,這是類似 munin 工具,但收費。(但我們在後續不忙的階段,會用 munin 去換掉 scoutapp。)會這樣作是剛上線都很忙,應該把精力 focus 在修 app bug 而不是 system administrator & deep monitoring。
上線後一個月要是狀況穩定,我會用 rails_best_practices 這個 gem 掃描一次 code quality 是否有嚴重不恰當的寫法,儘量 refactor 掉。(趁開發壓力較低,又記憶猶新之時)
總之原則是,什麼時候作什麼事,若問題能用錢解決就用錢先解決,因為開發戰力和專注的方向是錢換不到的。
一般分应用监控和系统监控。系统监控全部交给“监控宝”处理,包括 cpu,硬盘,内存,流量,ping 时长和 dns 检测。 应用监控通过应用日志解决
应用监控和服务器监控