• <code id="yqigy"><object id="yqigy"></object></code>
  • 機房360首頁
    當前位置:首頁 ? 運維 ? 運維難度“更上一層樓”—不存在的!

    運維難度“更上一層樓”—不存在的!

    來源:中國IDC圈 作者: 更新時間:2019/8/26 10:36:04

    摘要:隨著數據中心建設的規模不斷擴大,新技術迭代更新,承載數據中心業務的網絡變得異常復雜。為了適應數據中心業務的發展,數據中心網絡也在不斷更新與變化,給運維工作帶來了極大的難度。

    數據中心最怕什么?

    停電、網絡受損…

    數據中心運維人員最怕什么?

    宕機、不常規故障、升級擴容…

      隨著數據中心建設的規模不斷擴大,新技術迭代更新,承載數據中心業務的網絡變得異常復雜。為了適應數據中心業務的發展,數據中心網絡也在不斷更新與變化,給運維工作帶來了極大的難度。數據中心宕機事故也難免發生,這不僅增加了數據中心運維人員的工作量,更重要的是給數據中心帶來了巨大的損失,就連全球知名的互聯網巨頭也經常享受這般“待遇”。

      互聯網巨頭宕機不斷,運維工作成難題

      3月3日凌晨,阿里云出現宕機故障,導致購買阿里云服務的企業網站或互聯網公司APP無法正常使用。一大波程序員、運營和運維不得不從被窩里爬起來干活。針對阿里云此次宕機,58高級架構師沈劍稱,事故持續了3個小時左右,事后觀察了2個小時。

      5月3日凌晨3點43分開始,微軟Azure在全球范圍內出現了大面積宕機,整個過程持續了將近2個小時,直到5點30分才完全恢復。受Azure宕機影響,包括Microsoft 365,Dynamics和DevOps在內的微軟主要服務均出現使用問題。

      6月3日凌晨2點58分開始,谷歌在全球范圍內遭遇了大規模中斷,包括Gmail、YouTube和Google Drive在內基于谷歌云架構服務的諸多谷歌服務均受到影響。用戶訪問谷歌服務出現各種錯誤提醒,并且阻止用戶訪問電子郵件、上傳YouTube視頻等。

      6月25日消息,亞馬遜在官網證實云計算服務出現了宕機,導致部分網絡用戶和多個AWS區域的網絡連接受到了影響。出現故障的節點在AWS美東1區,共計33個服務受到影響,其中9個處于完全中斷狀態。

      宕機事故頻發,運維難度“更上一層樓”

      一次次宕機事件證明了數據中心運維工作的重要性,但似乎不能避免。如今隨著科技的進步萬物互聯時代的到來,數據中心作為重要基礎設施發揮著重要作用,雖然數據中心在國內的發展只有十多年的時間,但已經從只有UPS、空調和IT設備的普通機房時代,進入到囊括互聯網、大數據、AI、云服務等全方位服務、動輒擁有數萬機柜,自然冷、風墻、水下數據中心、液冷服務器等新技術不斷被創造和應用的新時代。這樣一來,運維管理面臨著更大的挑戰,運維難度也“更上一層樓”。

      首先,超大規模的數據中心帶來的人員、組織和效率的變化。以前萬平米以內的數據中心,人工巡檢一次2-4小時,現在數十萬平米,需要更多的運維人員分布在不同的責任區,增加了管理的難度和成本;其次,電壓等級提高,安全風險增加。以往運維人員接觸的是低壓,現在供電設備、發電機、冷機都是高壓供電,維護安全要求提升;此外,規模集中,導致風險集中,事故影響更大。例如上文中談到的數據中心宕機事故,導致全球大面積的服務和應用中斷,損失慘重,因此運維管理的壓力超前。

      減少人為失誤,提升運維管理的專業技能

      據數據調查顯示,數據中心的宕機事故70%是由人為失誤造成的,因此在數據中心規模不斷擴大的同時,運維人員要通過提升自身的技能和專業水平以應對數據中心意外事件的發生:

      1建立一套完備的人員技能評價體系,從多方面考核運維人員技能能力,能夠有效幫助運維人員提高運維技能,促進運維人員主動學習自動提升。

      2運維經驗在線學習,建立運維經驗庫,實現在線運維經驗共享交流平臺,提供運維知識在線實習和學習的渠道。

      3實操環境在線模擬,提供運維模擬實踐操作環境,有效隔離操作風險,幫助快速提高運維實際水平。

      4理論技能在線評測,依托海量IT云平臺組件題庫,定期考核,隨機出題,實現運維理論能力的在線實時自動測評。

      5實操技能在線測評,構建輕量化在線運維操作、在線編程環境,實現運維操作技能與研發技能的在線實時自動評測。

      6通過自動評測提升效率,實現運維理論技能與實操技能的在線科學自動評測,提高評測效率,確保能力客觀公正的體現。

      彌補人工運維不足,智能運維應運而生

      如今,數字化時代已經到來,數據中心規模和容量都在成倍增長,隨之而來的運維管理復雜度和難度也越來越大,從腳本運維、工具運維到平臺運維演進至今,人力已接近極限,隨即智能運維應運而生。如今更多的數據中心企業諸如騰訊、華為、京東等開始加大研發力度投入到智能運維的浪潮中來,將人工智能與運維結合,基于已有運維數據(日志、監控信息、應用信息等),通過機器學習的方法來提升運維效率,從而逐步取代人工的運維。相信未來數據中心將會越來越智能化。

      責任編輯:DJ編輯

    機房360微信公眾號訂閱
    掃一掃,訂閱更多數據中心資訊

    本文地址:http://www.sorostrading.com/news/2019826/n7512121812.html 網友評論: 閱讀次數:
    版權聲明:凡本站原創文章,未經授權,禁止轉載,否則追究法律責任。
    相關評論
    正在加載評論列表...
    評論表單加載中...
    • 我要分享
    推薦圖片
    在车上疯狂抚弄她娇喘视频
  • <code id="yqigy"><object id="yqigy"></object></code>