為了能有更多時間在雙11期間買買買,阿里巴巴的工程師研發出了一款AI來解放自己。
11月6日,阿里巴巴數據中心AI調度官“達靈”正式上任。在實習期間,達靈打破了人類工程師的多項紀錄:將數據中心資源分配率拉升到了90%以上,在部分業務中節省了一半服務器,并且可以2秒鐘鎖定異常機器,命中率94%。
“伴隨雙11規模的逐年暴漲,管理、調度上萬臺服務器這樣的工作已經不適合人來做了。” 阿里巴巴資深搜索研發專家鄭南說,達靈這套算法能夠快速給出最優的計算資源部署方案,并且根據訪問量不斷搬運應用和數據,確保沒有一臺機器偷懶。
今年工程師的職責變成如何用數據去喂養“達靈”。鄭南說,我們要做的就是提供表格數據大小、應用歷史訪問量以及目前的部署方案等信息,省下的就是喝著茶看她的表演。“她甚至可以在線上克隆一個真實的服務,自己進行壓力測試,以判斷方案是否最優。”
除了對計算資源的不斷調度、應用的不斷搬運外,達靈還有一個職責是及時發現異常機器,快速隔離。要知道,雙11期間一臺機器的異常,可能帶來百萬級用戶的下單失敗。
但對工程師來說,從機器出現異常、被發現到處理完成,整個過程有時會長達數分鐘。而這已經是人類能做到的極限。達靈能夠把時間、負載、服務狀態等不確定因素通過數據算法關聯,最終快速鎖定異常機器。
日常工作中,達靈每天會采集29億條機器運營狀態,日均隔離異常機器1000次左右,在大促期間調度準確率達到94%,時間只需要2秒鐘。
阿里巴巴iDST團隊是達靈的創造者。項目負責人朱勝火博士說,達靈的工作首先是在集群監控數據之上,建立起很多個深度學習、在線學習的模型,由此對集群內每一臺機器、每一個應用,當前和未來的狀態都了然于胸。在此基礎上,達靈通過應用強化學習、組合優化等技術,可以在復雜環境中自行學習判斷,作出一系列比如錯峰排布、碎片規整等聰明的決策,從而全局最優化集群的資源分配率以及穩定性。
除了“達靈”以外,機器運營小二、機器導購員、智能客服、AI設計師、機器揀貨員、機房巡邏員等一系列新物種已在天貓雙11前夕集中上崗。