為什么說云主機比物理機故障率更低？

2015-12-24 宇易網絡 4828

引言

很多朋(peng)友對云平臺可(ke)用性有所擔心，認為用物理機更(geng)加放心。今天我想就這個話題拋出(chu)個人看法。希(xi)望對大家有參考(kao)意義。先拋出(chu)結論：

從業務程序的角度，云主機的可用性可以做到比物理機高，即故障率更低（可用性和故障率接近但不是一個概念，為了便于闡述，下面只討論故障率）。

我見(jian)過很多(duo)客(ke)戶抱怨云(yun)主機(ji)的故(gu)障率。同時，我也見(jian)過并(bing)且幫好(hao)幾(ji)個(ge)使用(yong)物理(li)機(ji)的客(ke)戶解決問(wen)題：

他們沒有專業團隊及大規模環境(jing)，對于(yu)復雜點的(de)軟硬件故(gu)障幾乎束(shu)手無策，有時甚(shen)至(zhi)解決的(de)過程(cheng)把(ba)小問(wen)題(ti)(ti)變成大問(wen)題(ti)(ti)。

這(zhe)也是(shi)我今天分享這(zhe)個話題(ti)的(de)動(dong)力。下(xia)面(mian)進入正題(ti)，下(xia)圖是(shi)云主機和物(wu)理機軟(ruan)硬件層次對比(bi)：

影響云主機故障率的主要因素有：

服務器硬件質量
宿主機內核
虛擬化層（KVM+QEMU 或 Xen）
Linux 內核（承載業務程序）

影響物理機故障率的主要因素有：

服務器硬件質量
Linux 內核（承載業務程序）

從上面的對比看，云主機比物理機故障率貌似要高，因為虛擬化層和宿主機內核非常復雜，引入額外的故障率。這是直覺，而且很有道理：

AWS 去年就(jiu)因為虛(xu)擬化(hua)層內核的安全漏(lou)洞大規模(mo)重啟了(le)物理機(ji)，多數 AWS 用戶受影響(xiang)。虛(xu)擬化(hua)層和宿(su)主機(ji)內核的 BUG 也會同樣造(zao)成宕(dang)機(ji)及(ji)重啟。

那為什么還說云主機故障率可以(yi)低于物理機呢(ni)？

備注：這里(li)我是從終端用戶的(de)角度看的(de)，“從廠(chang)商購買(mai)(mai)的(de)”物理機(ji)，來對比「從云平臺購買(mai)(mai)的(de)」云主機(ji)。

原因在于：簡單來說，云平臺廠商往往管理幾萬幾十萬臺物理服務器，并有比較專業的基礎運維團隊和內核團隊，可以在故障率上做大量的工作，以達成這樣的效果：

虛擬化層和宿主機內核的故障率接近 0。這兩層是內核，通過內核優化來達到；
服務器硬件質量可以不斷提升；
承載業務程序的 Linux 內核，云平臺可以幫助用戶進行維護。并解決 BUG，修復安全漏洞等。

有人會說(shuo)，我(wo)自己購買的(de)物(wu)理機也能做(zuo)上述優化，效果(guo)比云主機更好。真的(de)是這(zhe)樣(yang)的(de)么？現實情況是：

絕大部分公司管(guan)理的服(fu)務(wu)(wu)器數(shu)量不(bu)多，不(bu)足以建立相應(ying)的團隊；同時(shi)因為服(fu)務(wu)(wu)器數(shu)量少（比如不(bu)到萬臺(tai)），做軟硬件優化的環境不(bu)理想。

下面就(jiu)上述要(yao)點(dian)展開(kai)。

虛擬化層和宿主機內核的故障率如何降低？

這主(zhu)要通過自主(zhu)掌控(kong)虛擬化層(ceng)和宿主(zhu)機(ji)內(nei)核(he)，這整套內(nei)核(he)來(lai)實現。

1. 自主維護Linux內核

商(shang)業(ye) Linux 發行版(ban)（如 RHEL6.X）的(de)內(nei)核其實有(you)不(bu)少(shao) BUG，因為內(nei)核太龐大、太復(fu)雜，BUG 修之(zhi)不(bu)盡而且不(bu)斷涌現，只(zhi)要內(nei)核有(you)人在改動，更多的(de) BUG 就還在路上。

但我們(men)自己維護的 Linux 內核(he)，我們(men)可(ke)以迅速修(xiu)復并應用進實際環境，不像(xiang)商業 Linux 要等(deng)待較長(chang)的發布周期。

我(wo)們還(huan)可(ke)以(yi)預(yu)先研(yan)究別人犯過(guo)的(de)錯誤，把更新補丁(ding)打入(ru)現在的(de)內核；還(huan)可(ke)以(yi)屏蔽(bi)不(bu)必要(yao)的(de)特性(xing)和改動避免(mian) BUG 的(de)引入(ru)。

簡(jian)單講，自主(zhu)維護內核(he)很(hen)靈活，最(zui)終質量(liang)(liang)不(bu)低于商(shang)業 Linux 發行版。國內有海量(liang)(liang)服務器的公司如(ru)騰(teng)訊和阿里都(dou)運行自主(zhu)維護的 Linux 內核(he)。

2. 免重啟熱補丁技術

這是指通過二(er)進(jin)制指令(ling)修改(gai)的方式修改(gai) Linux 內(nei)核(he)達到修復的目的。

結合(he)自(zi)主維(wei)護 Linux 內(nei)(nei)核，如果發(fa)現了 BUG 并制作(zuo)修復(fu)補丁后，可以免重啟應(ying)用到生產環境的 Linux 內(nei)(nei)核里。

這(zhe)點(dian)目前主(zhu)流 Linux 廠(chang)商不提供(gong)。但云(yun)平(ping)臺廠(chang)商可以自己做。

3. 熱遷移技術

特殊情況(kuang)下的(de)熱遷移，可規避尚未完全定位的(de)內核問題。

這三點的(de)綜合效果，使得(de)某些云廠商，因(yin)為內核原因(yin)造成的(de)宕(dang)機低到可以忽略。幾萬(wan)臺服務器半(ban)年可以減少到一兩(liang)次(ci)。

可能(neng)有些早(zao)期用戶應該比較有感覺，幾年軟件宕(dang)機不少，給客(ke)戶推送的故障報告不時就(jiu)和(he)內核(he)有關，但經過一年半(ban)載(zai)的工作后(hou)，現在幾乎沒(mei)有了(le)。

服務器硬件質量如何提升？

服(fu)務(wu)器硬件(jian)故(gu)障(zhang)率(lv)的(de)影響因(yin)素有廠商品(pin)牌、機(ji)型(xing)、服(fu)務(wu)器運(yun)行時間、以及部件(jian)型(xing)號的(de)故(gu)障(zhang)率(lv)。

這里的工(gong)作(zuo)需要海量服務器來做，比如上(shang)萬臺才有意(yi)義(yi)，而幾百(bai)上(shang)千臺意(yi)義(yi)不大。

這里有一張圖，體現我們可以主動采取部分措施。

1. 服務器故障率和廠商機型關系密切

我們可以(yi)監(jian)控(kong)各(ge)廠商機型(xing)的故(gu)障率，主動下架比(bi)較差的，從而提升總(zong)體質量(liang)。

一般(ban)來(lai)說，小(xiao)廠(chang)的(de)服(fu)務器故障(zhang)率(lv)會(hui)高一些，但大(da)廠(chang)即使 DELL、聯想的(de)個別(bie)機(ji)型也會(hui)有較高故障(zhang)率(lv)。

這(zhe)主(zhu)要和機型設計和生(sheng)產質(zhi)量管控有關，就不(bu)闡述(shu)了。我(wo)們能做的是選擇故(gu)障(zhang)率低的廠(chang)商和機型。

2. 服務器運行時間久了，故障率會隨之提升

對于云平臺(tai)廠商，可(ke)以監(jian)控這一切故障發生前的(de)征兆，并主動采取措施，通過熱遷移手段避(bi)免(mian)云主機受影響。

3. 硬件宕機和部件缺陷關系很大

我們(men)的統計發現，部件(jian)種類里，硬盤(pan)故障故障率最高，其次內存硬件(jian)、RAID 卡等(deng)。

對(dui)(dui)于(yu)硬盤故(gu)障，可以通(tong)過(guo) RAID 方式規避。對(dui)(dui)于(yu)內存硬件，可以通(tong)過(guo)內存故(gu)障隔離等(deng)內核手段，大幅度減少其硬件故(gu)障造成的宕機及(ji)影響。

總的(de)來講，通(tong)過上述這(zhe)些工作，云平臺廠商可以(yi)讓(rang)服務器硬件故(gu)障率(lv)逐(zhu)步(bu)降(jiang)低。其實，可以(yi)做的(de)更(geng)多，篇幅原因就(jiu)不(bu)講了。而(er)這(zhe)樣的(de)工作，對于沒(mei)有海量(liang)環境(jing)的(de)公司是很難做的(de)，效果(guo)也不(bu)佳。

另外，云(yun)平臺廠商可以(yi)替用戶修(xiu)復云(yun)主(zhu)機內核的 BUG 和安全漏(lou)洞，降低內核故障率。

我們在這方面做了一(yi)些工作，內核版本會及(ji)時更新(xin)，關(guan)鍵漏洞會提供(gong)免(mian)重啟熱補(bu)丁(ding)修復包。

觀點總結

簡要總結一下本文的主要觀點：

云主機相比物理機，虛擬化層和宿主機內核的額外復雜性及故障率可以被優化至接近 0 即可以忽略。
服務器硬件故障，云平臺可以不斷降低其故障率，主要手段通過內核隔離硬件故障、熱遷移規避故障隱患，以及監控故障率并主動下架不良廠商機型等。

上述(shu)這些工作都需(xu)要非常專(zhuan)業的(de)運維團(tuan)隊和(he)內核團(tuan)隊才能實施，如果沒有足夠(gou)大的(de)服務器數量(liang)是很難(nan)開展的(de)。

而大(da)型云(yun)廠(chang)商往(wang)往(wang)管理(li)幾(ji)萬、幾(ji)十萬服務器，因此(ci)具備(bei)這樣(yang)的(de)條件。也(ye)因此(ci)，云(yun)主機(ji)故障率能低于(yu)物理(li)機(ji)（當然，如果什(shen)么(me)都不(bu)做，云(yun)主機(ji)故障率一(yi)定是(shi)高于(yu)物理(li)機(ji)的(de)）。