當(dāng)前位置: 首頁 >
發(fā)布日期:2022-04-17 點(diǎn)擊率:62
硬、軟故障發(fā)生都會對系統(tǒng)的可靠性甚至可用性造成不良影響,因此如何及時有效地進(jìn)行故障檢測和恢復(fù)就變得比較關(guān)鍵。對于硬故障的檢測業(yè)界已有成熟的方案,本文第一部分只重點(diǎn)討論軟故障的檢測;本文的第二部分將集中探討故障恢復(fù)策略相關(guān)的問題;最后,我們將介紹如何在保證數(shù)據(jù)可靠的同時滿足在線應(yīng)用的低延時需求。 正如單機(jī)操作系統(tǒng)的內(nèi)核,在阿里云OS中,飛天大規(guī)模分布式計算平臺起到了承上啟下的關(guān)鍵作用。飛天運(yùn)行在通過網(wǎng)絡(luò)互聯(lián)的通用服務(wù)器集群上,隱藏了海量硬件所帶來的復(fù)雜度和不可靠,向云OS的其他組件提供可信賴的的計算能力和存儲能力。 具體來講,飛天本身是一個由多個組件所構(gòu)成的復(fù)雜的分布式系統(tǒng),其中的核心組件是以下兩個子系統(tǒng)。 計算資源調(diào)度系統(tǒng)(又稱伏羲):管理和調(diào)度集群計算資源;在多個云服務(wù)間動態(tài)分配計算資源,以滿足用戶的計算需求;自動檢測服務(wù)器故障并遷移故障服務(wù)器上的服務(wù)。 分布式文件系統(tǒng)(又稱盤古):管理集群的所有硬盤;合理地安排數(shù)據(jù)存放位置以兼顧性能和數(shù)據(jù)安全性;自動檢測磁盤故障并復(fù)制數(shù)據(jù)以保證安全。 在實(shí)現(xiàn)飛天云計算平臺的過程中,工程師們面臨了許多技術(shù)挑戰(zhàn),包括: 在不可靠硬件基礎(chǔ)上提供高可靠的計算能力和存儲能力; 提供高可用服務(wù); 低成本運(yùn)維海量硬件; 在線應(yīng)用與離線應(yīng)用并存; 克服節(jié)點(diǎn)間帶寬的限制; 最大化利用計算資源,等等。 其中,不可靠的硬件是最基本的挑戰(zhàn)。集群規(guī)模達(dá)到上千臺后,單機(jī)上的小概率事件變成了必然的、頻繁發(fā)生的事件。硬盤、硬盤控制器、CPU、內(nèi)存、主板、電源等故障造成的宕機(jī)每天都會發(fā)生。這類硬件失效故障,我們稱之為“硬”故障(fail-stop故障)。此外,還有一類故障現(xiàn)象不那么明顯,稱之為“軟”故障,例如,磁盤可訪問但速度只有正常的1/10、服務(wù)器沒有宕機(jī)但程序運(yùn)行緩慢、網(wǎng)絡(luò)時好時壞等。這類“軟”故障同樣會影響服務(wù)質(zhì)量,因為在線服務(wù)如果執(zhí)行緩慢會造成客戶端超時,而對離線作業(yè)而言,哪怕只有1%的數(shù)據(jù)處理任務(wù)緩慢,也會拖延整個數(shù)據(jù)分析作業(yè)的完成時間。 硬、軟故障發(fā)生都會對系統(tǒng)的可靠性甚至可用性造成不良影響,因此如何及時有效地進(jìn)行故障檢測和恢復(fù)就變得比較關(guān)鍵。對于硬故障的檢測業(yè)界已有成熟的方案,本文第一部分只重點(diǎn)討論軟故障的檢測;本文的第二部分將集中探討故障恢復(fù)策略相關(guān)的問題;最后,我們將介紹如何在保證數(shù)據(jù)可靠的同時滿足在線應(yīng)用的低延時需求。 云環(huán)境中的軟故障檢測 檢測“軟”故障有兩種思路。 一種思路是針對每種具體故障設(shè)計檢測方法。但“軟”故障產(chǎn)生的原因可能很多,例如執(zhí)行緩慢可能是服務(wù)器硬件故障、網(wǎng)絡(luò)故障、磁盤故障、操作系統(tǒng)軟件故障等,逐一檢測會使系統(tǒng)過于復(fù)雜。 另一種思路是從宏觀現(xiàn)象來檢測,下面看兩個例子。 例子一:檢測作業(yè)在某臺服務(wù)器上執(zhí)行特別緩慢的情況。 我們統(tǒng)計每個作業(yè)在每臺服務(wù)器上的執(zhí)行時間。因為輸入數(shù)據(jù)被均勻地切片,每臺服務(wù)器上的執(zhí)行時間應(yīng)該大致相同。如果某臺服務(wù)器上執(zhí)行時間超過了平均時間的三倍,它就被標(biāo)記為“緩慢”。如果各種不同作業(yè)在某臺服務(wù)器上都“緩慢”,那么我們有充分理由懷疑這臺服務(wù)器有問題(但不知道原因)。調(diào)度系統(tǒng)會自動把這臺服務(wù)器加入黑名單,不再用它執(zhí)行作業(yè)。之后再自動或人工檢查這些可疑服務(wù)器的具體故障原因。 例子二:檢測磁盤讀寫慢的情況。 我們在分布式文件系統(tǒng)里也會統(tǒng)計每次磁盤訪問的時間。如果某塊磁盤有大比率的訪問時間遠(yuǎn)遠(yuǎn)超過系統(tǒng)平均值,那么很有可能是這塊磁盤快要發(fā)生故障了。文件系統(tǒng)此時會做三件事: 停止寫新數(shù)據(jù)到這塊磁盤,防止更多數(shù)據(jù)處于危險中; 開始為這塊磁盤上的數(shù)據(jù)增加更多副本; 當(dāng)這塊磁盤上的所有數(shù)據(jù)都有額外的副本,就可以將它下線,待運(yùn)維處理。
下一篇: PLC、DCS、FCS三大控
上一篇: 索爾維全系列Solef?PV