當(dāng)前位置: 首頁(yè) > 工業(yè)控制產(chǎn)品 > 樓宇自動(dòng)化 > CCTV監(jiān)控系統(tǒng) > CCTV監(jiān)控主機(jī)
發(fā)布日期:2022-04-26 點(diǎn)擊率:77
背景介紹
該分享是阿里媽媽Goldeneye業(yè)務(wù)監(jiān)控平臺(tái)的智能監(jiān)控解決方案。
這個(gè)分享主要包括智能監(jiān)控的技術(shù)實(shí)現(xiàn),以及大規(guī)模日志監(jiān)測(cè)數(shù)據(jù)的自動(dòng)化接入兩部分。我先介紹一下智能監(jiān)控部分,下一期分享中我的兩位同事將給大家著重介紹日志分析處理的計(jì)算存儲(chǔ)。智能監(jiān)控現(xiàn)在其他一些公司也有在做,希望通過(guò)這次分享能夠給大家?guī)?lái)一些新的啟發(fā),也歡迎大家能夠提出問(wèn)題和建議,互相切磋交流經(jīng)驗(yàn)。——馬小鵬
相關(guān)廠商內(nèi)容
分享內(nèi)容的提綱如下:Goldeneye智能監(jiān)控的業(yè)務(wù)背景、技術(shù)思想、技術(shù)實(shí)現(xiàn)細(xì)節(jié)、難點(diǎn)和今后的優(yōu)化方向。
嘉賓介紹
馬小鵬,阿里媽媽全景業(yè)務(wù)監(jiān)控平臺(tái)技術(shù)負(fù)責(zé)人。2013 起在阿里從事大規(guī)模系統(tǒng)日志分析及應(yīng)用的研發(fā),曾經(jīng)主導(dǎo)了直通車(chē)廣告主報(bào)表平臺(tái)和實(shí)時(shí)報(bào)表存儲(chǔ)選型。在加入阿里之前,曾負(fù)責(zé)網(wǎng)易電商 App 數(shù)據(jù)統(tǒng)計(jì)平臺(tái)的研發(fā)。
一、Goldeneye智能監(jiān)控的背景
Goldeneye作為阿里媽媽業(yè)務(wù)監(jiān)控平臺(tái),主要在業(yè)務(wù)日志、數(shù)據(jù)的實(shí)時(shí)統(tǒng)計(jì)分析基礎(chǔ)上做監(jiān)控報(bào)警以及輔助定位。阿里集團(tuán)內(nèi)部也有很多優(yōu)秀的監(jiān)控平臺(tái),它們?cè)陂_(kāi)放性上做的很好,接入成本也不高,但是監(jiān)控閾值也是開(kāi)放給用戶自己設(shè)定。這種情況下,對(duì)于業(yè)務(wù)監(jiān)控人工維護(hù)閾值就比較復(fù)雜,需要有豐富的經(jīng)驗(yàn)來(lái)拍定閾值,需要人工持續(xù)的維護(hù)不同監(jiān)控項(xiàng)的監(jiān)控閾值。所以,在業(yè)務(wù)快速發(fā)展的前提下,傳統(tǒng)的靜態(tài)閾值監(jiān)控很容易出現(xiàn)了誤報(bào)、漏報(bào)的問(wèn)題,而且人工維護(hù)成本高,監(jiān)控視野局限。Goldeneye就是在這種基礎(chǔ)上,我們?cè)囍鴱拇髷?shù)據(jù)應(yīng)用的角度,去解決業(yè)務(wù)監(jiān)控中的問(wèn)題,由此誕生的。
1. 業(yè)務(wù)背景:
(1)體量大:Goldeneye現(xiàn)在接入的業(yè)務(wù)線覆蓋了阿里媽媽主體的90%業(yè)務(wù),每天處理的日志量在100T以上,業(yè)務(wù)監(jiān)控需要對(duì)各業(yè)務(wù)線的流量分層級(jí)實(shí)時(shí)監(jiān)控,核心數(shù)據(jù)以1分鐘為周期,一般監(jiān)測(cè)數(shù)據(jù)以5分鐘或1小時(shí)為周期,監(jiān)控目標(biāo)非常多,按人工維護(hù)這些監(jiān)控的閾值、啟停、生效實(shí)效等幾乎是達(dá)不到的。
(2)變化多:業(yè)務(wù)監(jiān)控的監(jiān)測(cè)數(shù)據(jù)大都是業(yè)務(wù)指標(biāo),不同于系統(tǒng)運(yùn)維指標(biāo),比如RT/QPS/TPS等一般是比較穩(wěn)定的,業(yè)務(wù)指標(biāo)具有周期性變化的特點(diǎn),比如工作日和節(jié)假日的區(qū)別、業(yè)務(wù)營(yíng)銷策略調(diào)整的影響等,在這種情況下人工設(shè)定的靜態(tài)報(bào)警閾值準(zhǔn)確性就很難保障了。
(3)迭代快:隨著阿里媽媽資源整合和業(yè)務(wù)的快速發(fā)展,監(jiān)控目標(biāo)也經(jīng)常發(fā)生變化,比如流量監(jiān)控資源位的調(diào)整、效果監(jiān)控的產(chǎn)品類型劃分等,曾經(jīng)出現(xiàn)過(guò)新流量上線后的監(jiān)控盲點(diǎn)。
2. 技術(shù)背景:

圖1 Goldeneye技術(shù)背景
通常的業(yè)務(wù)監(jiān)控系統(tǒng)或平臺(tái),都是由采集、數(shù)據(jù)處理、檢測(cè)、報(bào)警等模塊組成的,Goldeneye也是如此,不過(guò)它的技術(shù)架構(gòu)上用了阿里內(nèi)部的一些技術(shù)中間件,比如采集我們使用TimeTunnel(它有agent在各臺(tái)日志服務(wù)器上拉日志到Topic,并且負(fù)責(zé)將離線日志放到ODPS上),這部分我不再介紹了。
數(shù)據(jù)處理我們使用的jstorm和ODPS MR job分別對(duì)日志進(jìn)行實(shí)時(shí)、離線批處理,主要包括日志解析、校驗(yàn)、時(shí)間周期歸一化、聚合、寫(xiě)存儲(chǔ)(Hbase)等操作,這部分下一期分享中我的同事會(huì)詳細(xì)介紹。今天的分享主要集中在閾值預(yù)測(cè)、監(jiān)控檢測(cè)、報(bào)警生成&通知、輔助定位這四部分。
二、技術(shù)思想
智能監(jiān)控就是讓系統(tǒng)在業(yè)務(wù)監(jiān)控的某些環(huán)節(jié)上代替人工執(zhí)行和判斷的過(guò)程。人工維護(hù)監(jiān)控目標(biāo)和閾值是以經(jīng)驗(yàn)為參考的,系統(tǒng)如何自動(dòng)判斷哪些目標(biāo)需要監(jiān)控、自動(dòng)設(shè)定監(jiān)控目標(biāo)的閾值水位、不用人力維護(hù),是基于對(duì)歷史樣本數(shù)據(jù)統(tǒng)計(jì)分析得出判斷依據(jù)。
通過(guò)收集監(jiān)測(cè)數(shù)據(jù)的樣本,并使用智能檢測(cè)算法模型,讓程序自動(dòng)對(duì)監(jiān)控項(xiàng)指標(biāo)的基準(zhǔn)值、閾值做預(yù)測(cè),在檢測(cè)判斷異常報(bào)警時(shí)使用規(guī)則組合和均值漂移算法,能精確地判斷需要報(bào)警的異常點(diǎn)和變點(diǎn)。
1.閾值水位自適應(yīng)變化
以往我們添加監(jiān)控有兩種做法:
給指標(biāo)M1設(shè)置一個(gè)水位線,低于(或高于)水位,觸發(fā)報(bào)警;
給指標(biāo)M1設(shè)置同比、環(huán)比波動(dòng)幅度,比如同比波動(dòng)20%、環(huán)比波動(dòng)10%觸發(fā)報(bào)警;
以上兩種方式,是平常大家常用的監(jiān)控方式,但是效果確不理想,這種靜態(tài)閾值長(zhǎng)期來(lái)看沒(méi)有適應(yīng)變化的能力,需要人工維護(hù),而且報(bào)警準(zhǔn)確性也依賴于同環(huán)比數(shù)據(jù)的穩(wěn)定性。
我們能否讓系統(tǒng)具備自動(dòng)適應(yīng)變化的能力,自動(dòng)調(diào)整閾值水位?就如同手動(dòng)擋的汽車(chē)換成自動(dòng)擋一樣,可以根據(jù)速度自己調(diào)節(jié)檔位。
2.監(jiān)控項(xiàng)自動(dòng)發(fā)現(xiàn)
當(dāng)我們的監(jiān)控系統(tǒng)具備預(yù)測(cè)動(dòng)態(tài)閾值的能力后,監(jiān)控項(xiàng)的維護(hù)是否也可以交給系統(tǒng)去做?
可能大家也曾遇到過(guò)類似的情況,舊的監(jiān)控項(xiàng)已經(jīng)沒(méi)有數(shù)據(jù)了,新的監(jiān)控目標(biāo)卻因?yàn)楦鞣N原因被漏掉,人工維護(hù)監(jiān)控項(xiàng)需要及時(shí)同步上下線變更,但是當(dāng)我們需要監(jiān)控的目標(biāo)有一千個(gè)、一萬(wàn)個(gè)甚至更多的時(shí)候,人力是無(wú)法一直跟進(jìn)這些監(jiān)控項(xiàng)的維護(hù)工作的,或者說(shuō)這種工作比較單調(diào)容易被忽視。
我們能否將判斷如何篩選監(jiān)控項(xiàng)的規(guī)則交給系統(tǒng),讓它去定期檢查哪些監(jiān)控項(xiàng)已經(jīng)實(shí)效,哪些監(jiān)控項(xiàng)需要新增,哪些監(jiān)控項(xiàng)的閾值需要調(diào)節(jié)。這種發(fā)現(xiàn)規(guī)則是穩(wěn)定的,僅僅是依據(jù)發(fā)現(xiàn)規(guī)則得出的監(jiān)控項(xiàng)內(nèi)容在不斷變化而已。
3.過(guò)濾誤報(bào)時(shí)欲擒故縱
當(dāng)我們的監(jiān)控系統(tǒng)具備預(yù)測(cè)動(dòng)態(tài)閾值、自動(dòng)發(fā)現(xiàn)并維護(hù)監(jiān)控項(xiàng)的能力后,如何達(dá)到不漏報(bào)和不誤報(bào)之間的平衡?
對(duì)于監(jiān)控而言,漏報(bào)是不可容忍的,但是誤報(bào)過(guò)多也容易使人麻木。
通常的做法是為了不被誤報(bào)干擾至麻木,會(huì)把閾值調(diào)節(jié)得寬松些,但是這種做法容易產(chǎn)生漏報(bào),尤其是下跌不太明顯的情況。
下一篇: PLC、DCS、FCS三大控
上一篇: 索爾維全系列Solef?PV