通過對影響原材料用量的過程以及公用工程中水、電、汽、風用量的實時監測,可以及時的發現問題,特別是對生產調度人員來說,可以利用UEC-PASS及時地平衡公用工程及物料供應系統,減少單耗,提高經濟效益。
實時監控系統監控,如CPU的負載,上下文切換、內存使用率、磁盤讀寫、磁盤使用率、磁盤inode使用率。當然這些都是需要配置觸發器,因為默認太低會頻繁報警。
CAT與應用間是否做了反饋機制,監控報警后是否會有應用重啟,服務降級這種操作?點評內部的pigeon是否有這種服務健康檢查包括自動降級的功能,今天,我們就這個問題展開討論。
所以不說服務自愈,哪怕在我們日常的故障處理當中,也很依賴于經驗。就是說這個東西是能做的,但是我們不太敢,因為要考慮的要素很多,就不太敢去直接做自愈這一塊。
我們這邊大屏其實主要還是應用的維度以及網絡流量的維度為主,比如說從公網的一個出口和入口的流量來看會不會有大面積的一個問題,如果發現已經達到外面防火墻或者它流量的一個閾值了,就可以迅速定位問題。
如何快速定位解決問題:不僅需要針對告警信息的多維關聯分析,同時還需具備針對告警事件的閉環處理以及故障自愈管理,支撐運維人員快速解決故障。
實時監控視頻CAT為每個報表單獨分配一個線程,所以不會有鎖的問題,所有報表模型都是非線程安全的,其數據是可變的。這樣帶來的好處是簡單且低開銷。
同期數據,是我按照周期,比如說今天某個時間點這個數據,我去比較昨天這個點是什么樣子的,去比較數據;
報警閾值定義:怎么樣才算是故障,要報警呢?比如CPU的負載到底多少算高,用戶態、內核態分別跑多少算高?
關于技術實現方面,我簡單贅述兩句,我們公司的監控大屏是用了Grafana來做的,Grafana可能已經成為了事實上的監控UI、數據可視化的標準了,它可以后面去接各種各樣的數據源,然后你各個監控系統、各種數據原理的數據可以統一來展示。
預測的數據也是基于現狀的,如果可以對預測數據進行判斷報警,理論上,也可以針對現有的數據進行判斷報警。
正如道旅CTOJames在應用ARMS之后感嘆:“憑借ARMS,道旅IT人員能夠在5分鐘內搭建和啟動基于大數據平臺的業務實時監控系統,在充分發揮數據監控時效性的同時,大幅提升了IT人員效率!”
第一種是數據的轉儲,比如像Prometheus,我們在本地只存2周或者4周的數據,然后更多的話,就把它寫到遠端。
性能基準指標:我們要監控這個東西的什么屬性?比如CPU的使用率、負載、用戶態、內核態、上下文切換。
網絡監控如果是云主機又不是跨機房,那么可以選擇監控網絡。當然你說我們是跨機房以及如何推薦使用smokeping來做網絡相關的監控,或者直接交給你們的網絡工程師來做,因為術業有專攻。
通過對影響生產過程的運行狀態的關鍵參數的監控,使生產的運行狀態保持平穩,當狀態發生變化時,可以及時地作出反映,避免生產裝置停車及設備停轉,這方面的效益是十分巨大的。
自動化監控,如上我們做了那么多的工作,當然不能是一臺一臺的來加key實現,可以通過Zabbix的主動模式以及被動模式來實現,當然最好還是通過API來實現。
因為我們知道我們的環境其實是很復雜的,比方說,我發覺數據庫宕了,服務停了,我敢不敢通過這個服務自己切過去。因為很多時候并不是數據庫本身的問題,是網絡的問題,網絡抖動了,監控數據拿不到了。這個是非常依賴于整個整體環境的,你可能要想到方方面面,這個規則會非常復雜。你可能在做服務自愈的時候,還要去對其他的東西做一個完全的檢查,確保其他東西是沒有問題的。
可視化通過screen以及引入一些第三方的庫來美化界面,同時我們也需要知道,訂單量突然增加、突然減少。或者說突然來了一大波流量,這流量從哪兒來,是不是推廣了,還是被攻擊了,可以結合監控平來梳理各個系統之間的業務關系。