傳統(tǒng)的運維方式基本都是依賴人工和靜態(tài)規(guī)則,它們無法適應于動態(tài)復雜變化的場景。而人工智能可以讓運維具備機器學習和算法的能力,從而在動態(tài)變化場景的復雜條件下,能夠做出高效準確的決策判斷。我們需要具有從“基于專家經(jīng)驗”到“基于機器學習”的觀念轉變。
近年來,機器學習技術在監(jiān)控工具中的應用已經(jīng)成為 IT 運維與 DevOps 團隊的一大熱點話題。盡管相關的使用案例很多,對 IT 團隊而已真正的「殺手級應用」是機器學習如何提高實時事件管理能力,從而幫助較大規(guī)模的企業(yè)提高服務質(zhì)量。對此,關鍵在于在用戶發(fā)現(xiàn)問題之前提早探測異常,進而減少生產(chǎn)事故與中斷的負面影響。
在運維過程中,會產(chǎn)生海量的運維數(shù)據(jù),這其中有些可用于描述應用或者系統(tǒng)的運行狀態(tài)、有些可用于標簽、有些可用于進行經(jīng)驗反饋。這些巨量的、多維度的數(shù)據(jù)是機器學習建立行為模型的基礎。
具體有哪些優(yōu)勢呢?首先,機器學習的優(yōu)點在于可以通過無監(jiān)督學習實現(xiàn)定制化,從而滿足公司獨特業(yè)務環(huán)境的需求。機器學習通過采用各種算法,識別數(shù)據(jù)中可實際應用于商業(yè)活動、挑戰(zhàn)和機會的一致、連貫且循環(huán)的模式,從而實現(xiàn)這一優(yōu)勢。
另外,現(xiàn)今的公司往往都掌握了大量的數(shù)據(jù),但是大多未被利用或者不可用,并且可能還正在迅速變化。這些數(shù)據(jù)太過龐大,即使是整個部隊的分析員也無法奢望能夠完全掌控。有了機器學習,大數(shù)據(jù)的優(yōu)勢可以通過將操作智能嵌入到現(xiàn)有的性能管理工具中得到有效實現(xiàn)。例如,假設一家大型百貨商店使用機器學習來分析銷售交易,就可以輕松地評估數(shù)十億筆交易及相關元數(shù)據(jù)并從中獲取有價值的信息。這些信息可以被納入現(xiàn)有的工具中,以幫助商店改進其內(nèi)部運營,并提升端對端的客戶體驗。
不僅如此,機器學習也可以幫助彌補IT運維專家退休或離開公司時留下的空缺。例如,新一代的IT專家未必接受過大型機技術的培訓,而許多領先的企業(yè)以及政府都依賴此技術來執(zhí)行其最重要的應用程序。嵌入智能和應用機器學習技術吸納了大型機專家的技能和知識,可以降低風險,確保機構可以實現(xiàn)持續(xù)和可擴展的運營,從而彌補對于優(yōu)化大型機性能和故障排除等專業(yè)能力的缺失。
當然,這并不意味著企業(yè)IT運維可以直接無縫向機器學習靠攏。事實上,機器學習可以分成兩個階段的應用。第一個階段是鏈接來自不同IT工具的數(shù)據(jù),第二個階段是確定哪里的關聯(lián)是最有意義的。在處理非結構化數(shù)據(jù)的第一階段,聯(lián)系的過程是并不明顯的。
機器學習可以推斷出不同數(shù)據(jù)源之間的關系,并確定如何才能將它們鏈接到有關的運行環(huán)境中去。算法包括模糊的匹配規(guī)則和如何去識別同時頻繁出現(xiàn)的事件的關聯(lián)規(guī)則,自然語言中的數(shù)據(jù)語言分析和根據(jù)預測模型建立的估算系統(tǒng)。而在這個過程中又產(chǎn)生了一系列的跨數(shù)據(jù)的帶有語義標注的數(shù)據(jù)樣本。
IT運維的發(fā)展足以使所有的可自動化功能變得自動,并使用精密的組件工具來確保一切正常運行。IT運維分析已經(jīng)進入了一個新的時代——一個由算法處理IT運維的領域,將學習算法的過程融入在收集的大量數(shù)據(jù),警報,票證和測量中,以提取出其被深深隱藏的洞察力,這種洞察力將能夠提供準確的警報,建立情景感知意識,找到根本原因,甚至能預測事件。
it168網(wǎng)站原創(chuàng) 作者: 張存