產(chǎn)品分類

      當(dāng)前位置: 首頁 >

      類型分類:
      科普知識
      數(shù)據(jù)分類:

      大規(guī)模云計算平臺的技術(shù)挑戰(zhàn)

      發(fā)布日期:2022-04-17 點(diǎn)擊率:62

              硬、軟故障發(fā)生都會對系統(tǒng)的可靠性甚至可用性造成不良影響,因此如何及時有效地進(jìn)行故障檢測和恢復(fù)就變得比較關(guān)鍵。對于硬故障的檢測業(yè)界已有成熟的方案,本文第一部分只重點(diǎn)討論軟故障的檢測;本文的第二部分將集中探討故障恢復(fù)策略相關(guān)的問題;最后,我們將介紹如何在保證數(shù)據(jù)可靠的同時滿足在線應(yīng)用的低延時需求。

       

              正如單機(jī)操作系統(tǒng)的內(nèi)核,在阿里云OS中,飛天大規(guī)模分布式計算平臺起到了承上啟下的關(guān)鍵作用。飛天運(yùn)行在通過網(wǎng)絡(luò)互聯(lián)的通用服務(wù)器集群上,隱藏了海量硬件所帶來的復(fù)雜度和不可靠,向云OS的其他組件提供可信賴的的計算能力和存儲能力。

              具體來講,飛天本身是一個由多個組件所構(gòu)成的復(fù)雜的分布式系統(tǒng),其中的核心組件是以下兩個子系統(tǒng)。

              計算資源調(diào)度系統(tǒng)(又稱伏羲):管理和調(diào)度集群計算資源;在多個云服務(wù)間動態(tài)分配計算資源,以滿足用戶的計算需求;自動檢測服務(wù)器故障并遷移故障服務(wù)器上的服務(wù)。

              分布式文件系統(tǒng)(又稱盤古):管理集群的所有硬盤;合理地安排數(shù)據(jù)存放位置以兼顧性能和數(shù)據(jù)安全性;自動檢測磁盤故障并復(fù)制數(shù)據(jù)以保證安全。

              在實(shí)現(xiàn)飛天云計算平臺的過程中,工程師們面臨了許多技術(shù)挑戰(zhàn),包括:

              在不可靠硬件基礎(chǔ)上提供高可靠的計算能力和存儲能力;

              提供高可用服務(wù);

              低成本運(yùn)維海量硬件;

              在線應(yīng)用與離線應(yīng)用并存;

              克服節(jié)點(diǎn)間帶寬的限制;

              最大化利用計算資源,等等。

              其中,不可靠的硬件是最基本的挑戰(zhàn)。集群規(guī)模達(dá)到上千臺后,單機(jī)上的小概率事件變成了必然的、頻繁發(fā)生的事件。硬盤、硬盤控制器、CPU、內(nèi)存、主板、電源等故障造成的宕機(jī)每天都會發(fā)生。這類硬件失效故障,我們稱之為“硬”故障(fail-stop故障)。此外,還有一類故障現(xiàn)象不那么明顯,稱之為“軟”故障,例如,磁盤可訪問但速度只有正常的1/10、服務(wù)器沒有宕機(jī)但程序運(yùn)行緩慢、網(wǎng)絡(luò)時好時壞等。這類“軟”故障同樣會影響服務(wù)質(zhì)量,因為在線服務(wù)如果執(zhí)行緩慢會造成客戶端超時,而對離線作業(yè)而言,哪怕只有1%的數(shù)據(jù)處理任務(wù)緩慢,也會拖延整個數(shù)據(jù)分析作業(yè)的完成時間。

              硬、軟故障發(fā)生都會對系統(tǒng)的可靠性甚至可用性造成不良影響,因此如何及時有效地進(jìn)行故障檢測和恢復(fù)就變得比較關(guān)鍵。對于硬故障的檢測業(yè)界已有成熟的方案,本文第一部分只重點(diǎn)討論軟故障的檢測;本文的第二部分將集中探討故障恢復(fù)策略相關(guān)的問題;最后,我們將介紹如何在保證數(shù)據(jù)可靠的同時滿足在線應(yīng)用的低延時需求。

      云環(huán)境中的軟故障檢測

              檢測“軟”故障有兩種思路。

              一種思路是針對每種具體故障設(shè)計檢測方法。但“軟”故障產(chǎn)生的原因可能很多,例如執(zhí)行緩慢可能是服務(wù)器硬件故障、網(wǎng)絡(luò)故障、磁盤故障、操作系統(tǒng)軟件故障等,逐一檢測會使系統(tǒng)過于復(fù)雜。

              另一種思路是從宏觀現(xiàn)象來檢測,下面看兩個例子。

              例子一:檢測作業(yè)在某臺服務(wù)器上執(zhí)行特別緩慢的情況。

              我們統(tǒng)計每個作業(yè)在每臺服務(wù)器上的執(zhí)行時間。因為輸入數(shù)據(jù)被均勻地切片,每臺服務(wù)器上的執(zhí)行時間應(yīng)該大致相同。如果某臺服務(wù)器上執(zhí)行時間超過了平均時間的三倍,它就被標(biāo)記為“緩慢”。如果各種不同作業(yè)在某臺服務(wù)器上都“緩慢”,那么我們有充分理由懷疑這臺服務(wù)器有問題(但不知道原因)。調(diào)度系統(tǒng)會自動把這臺服務(wù)器加入黑名單,不再用它執(zhí)行作業(yè)。之后再自動或人工檢查這些可疑服務(wù)器的具體故障原因。

              例子二:檢測磁盤讀寫慢的情況。

              我們在分布式文件系統(tǒng)里也會統(tǒng)計每次磁盤訪問的時間。如果某塊磁盤有大比率的訪問時間遠(yuǎn)遠(yuǎn)超過系統(tǒng)平均值,那么很有可能是這塊磁盤快要發(fā)生故障了。文件系統(tǒng)此時會做三件事:

              停止寫新數(shù)據(jù)到這塊磁盤,防止更多數(shù)據(jù)處于危險中;

              開始為這塊磁盤上的數(shù)據(jù)增加更多副本;

              當(dāng)這塊磁盤上的所有數(shù)據(jù)都有額外的副本,就可以將它下線,待運(yùn)維處理。


      下一篇: PLC、DCS、FCS三大控

      上一篇: 索爾維全系列Solef?PV

      推薦產(chǎn)品

      更多
      主站蜘蛛池模板: 亚洲一区综合在线播放| 波多野结衣中文字幕一区| 无码国产精品一区二区免费| 国产精品一区二区香蕉| 夜夜添无码一区二区三区| 国产一区二区三区韩国女主播| 国产一区二区三区不卡观| 日韩AV在线不卡一区二区三区| 日韩精品一区二区三区老鸭窝| 精品国产一区二区三区久久| 国产综合一区二区在线观看| 国产一区二区三区小向美奈子| 精品女同一区二区三区免费站| 日韩电影一区二区三区| 国产一区二区四区在线观看 | 日韩一本之道一区中文字幕| 色一情一乱一伦一区二区三区| 亚洲A∨精品一区二区三区下载| 亚洲av乱码一区二区三区| 91视频一区二区| 久久一区二区三区精华液使用方法| 无码欧精品亚洲日韩一区| 亚洲一区综合在线播放| 高清国产AV一区二区三区| 无码日韩精品一区二区三区免费| 日韩一区二区电影| 91精品福利一区二区三区野战| 亚洲av乱码一区二区三区香蕉| 国产精品香蕉一区二区三区 | 国产一区二区三区在线看片| 国产亚洲综合一区二区三区 | 精品国产一区二区三区不卡 | 国产麻豆剧果冻传媒一区| 日韩精品电影一区亚洲| 中文字幕无码免费久久9一区9| 国产在线精品一区二区不卡| 亚洲一区精品视频在线| 国产精品成人一区无码| 亚洲片一区二区三区| 久久精品无码一区二区三区| 99久久精品国产一区二区成人 |