久久男人AV资源网站无码_乱人伦人妻精品一区二区_亚洲国产精久久久久久久_狠狠躁夜夜躁人人爽天天BL

為什么說云主機比物理機故障率更低?

2015-12-24 宇易網絡 4828

引言

很多朋(peng)友對云平臺可(ke)用性有所擔心,認為用物理機更(geng)加放心。今天我想就這個話題拋出(chu)個人看法。希(xi)望對大家有參考(kao)意義。先拋出(chu)結論:

從業務程序的角度,云主機的可用性可以做到比物理機高,即故障率更低(可用性和故障率接近但不是一個概念,為了便于闡述,下面只討論故障率)。

我見(jian)過很多(duo)客(ke)戶抱怨云(yun)主機(ji)的故(gu)障率。同時,我也見(jian)過并(bing)且幫好(hao)幾(ji)個(ge)使用(yong)物理(li)機(ji)的客(ke)戶解決問(wen)題:

他們沒有專業團隊及大規模環境(jing),對于(yu)復雜點的(de)軟硬件故(gu)障幾乎束(shu)手無策,有時甚(shen)至(zhi)解決的(de)過程(cheng)把(ba)小問(wen)題(ti)(ti)變成大問(wen)題(ti)(ti)。

這(zhe)也是(shi)我今天分享這(zhe)個話題(ti)的(de)動(dong)力。下(xia)面(mian)進入正題(ti),下(xia)圖是(shi)云主機和物(wu)理機軟(ruan)硬件層次對比(bi): 

影響云主機故障率的主要因素有:

  • 服務器硬件質量
  • 宿主機內核
  • 虛擬化層(KVM+QEMU 或 Xen)
  • Linux 內核(承載業務程序)

影響物理機故障率的主要因素有:

  • 服務器硬件質量
  • Linux 內核(承載業務程序)

從上面的對比看,云主機比物理機故障率貌似要高,因為虛擬化層和宿主機內核非常復雜,引入額外的故障率。這是直覺,而且很有道理:

AWS 去年就(jiu)因為虛(xu)擬化(hua)層內核的安全漏(lou)洞大規模(mo)重啟了(le)物理機(ji),多數 AWS 用戶受影響(xiang)。虛(xu)擬化(hua)層和宿(su)主機(ji)內核的 BUG 也會同樣造(zao)成宕(dang)機(ji)及(ji)重啟。

那為什么還說云主機故障率可以(yi)低于物理機呢(ni)?

備注:這里(li)我是從終端用戶的(de)角度看的(de),“從廠(chang)商購買(mai)(mai)的(de)”物理機(ji),來對比「從云平臺購買(mai)(mai)的(de)」云主機(ji)。

原因在于:簡單來說,云平臺廠商往往管理幾萬幾十萬臺物理服務器,并有比較專業的基礎運維團隊和內核團隊,可以在故障率上做大量的工作,以達成這樣的效果:

  1. 虛擬化層和宿主機內核的故障率接近 0。這兩層是內核,通過內核優化來達到;
  2. 服務器硬件質量可以不斷提升;
  3. 承載業務程序的 Linux 內核,云平臺可以幫助用戶進行維護。并解決 BUG,修復安全漏洞等。

有人會說(shuo),我(wo)自己購買的(de)物(wu)理機也能做(zuo)上述優化,效果(guo)比云主機更好。 真的(de)是這(zhe)樣(yang)的(de)么?現實情況是:

絕大部分公司管(guan)理的服(fu)務(wu)(wu)器數(shu)量不(bu)多,不(bu)足以建立相應(ying)的團隊;同時(shi)因為服(fu)務(wu)(wu)器數(shu)量少(比如不(bu)到萬臺(tai)),做軟硬件優化的環境不(bu)理想。

下面就(jiu)上述要(yao)點(dian)展開(kai)。

虛擬化層和宿主機內核的故障率如何降低?

這主(zhu)要通過自主(zhu)掌控(kong)虛擬化層(ceng)和宿主(zhu)機(ji)內(nei)核(he),這整套內(nei)核(he)來(lai)實現。

1. 自主維護Linux內核

商(shang)業(ye) Linux 發行版(ban)(如 RHEL6.X)的(de)內(nei)核其實有(you)不(bu)少(shao) BUG,因為內(nei)核太龐大、太復(fu)雜,BUG 修之(zhi)不(bu)盡而且不(bu)斷涌現,只(zhi)要內(nei)核有(you)人在改動,更多的(de) BUG 就還在路上。

但我們(men)自己維護的 Linux 內核(he),我們(men)可(ke)以迅速修(xiu)復并應用進實際環境,不像(xiang)商業 Linux 要等(deng)待較長(chang)的發布周期。

我(wo)們還(huan)可(ke)以(yi)預(yu)先研(yan)究別人犯過(guo)的(de)錯誤,把更新補丁(ding)打入(ru)現在的(de)內核;還(huan)可(ke)以(yi)屏蔽(bi)不(bu)必要(yao)的(de)特性(xing)和改動避免(mian) BUG 的(de)引入(ru)。  

簡(jian)單講,自主(zhu)維護內核(he)很(hen)靈活,最(zui)終質量(liang)(liang)不(bu)低于商(shang)業 Linux 發行版。國內有海量(liang)(liang)服務器的公司如(ru)騰(teng)訊和阿里都(dou)運行自主(zhu)維護的 Linux 內核(he)。

2. 免重啟熱補丁技術

這是指通過二(er)進(jin)制指令(ling)修改(gai)的方式修改(gai) Linux 內(nei)核(he)達到修復的目的。

結合(he)自(zi)主維(wei)護 Linux 內(nei)(nei)核,如果發(fa)現了 BUG 并制作(zuo)修復(fu)補丁后,可以免重啟應(ying)用到生產環境的 Linux 內(nei)(nei)核里。

這(zhe)點(dian)目前主(zhu)流 Linux 廠(chang)商不提供(gong)。但云(yun)平(ping)臺廠(chang)商可以自己做。

3. 熱遷移技術

特殊情況(kuang)下的(de)熱遷移,可規避尚未完全定位的(de)內核問題。

這三點的(de)綜合效果,使得(de)某些云廠商,因(yin)為內核原因(yin)造成的(de)宕(dang)機低到可以忽略。幾萬(wan)臺服務器半(ban)年可以減少到一兩(liang)次(ci)。

可能(neng)有些早(zao)期用戶應該比較有感覺,幾年軟件宕(dang)機不少,給客(ke)戶推送的故障報告不時就(jiu)和(he)內核(he)有關,但經過一年半(ban)載(zai)的工作后(hou),現在幾乎沒(mei)有了(le)。

服務器硬件質量如何提升?

服(fu)務(wu)器硬件(jian)故(gu)障(zhang)率(lv)的(de)影響因(yin)素有廠商品(pin)牌、機(ji)型(xing)、服(fu)務(wu)器運(yun)行時間、以及部件(jian)型(xing)號的(de)故(gu)障(zhang)率(lv)。

這里的工(gong)作(zuo)需要海量服務器來做,比如上(shang)萬臺才有意(yi)義(yi),而幾百(bai)上(shang)千臺意(yi)義(yi)不大。

這里有一張圖,體現我們可以主動采取部分措施。

1. 服務器故障率和廠商機型關系密切

我們可以(yi)監(jian)控(kong)各(ge)廠商機型(xing)的故(gu)障率,主動下架比(bi)較差的,從而提升總(zong)體質量(liang)。

一般(ban)來(lai)說,小(xiao)廠(chang)的(de)服(fu)務器故障(zhang)率(lv)會(hui)高一些,但大(da)廠(chang)即使 DELL、聯想的(de)個別(bie)機(ji)型也會(hui)有較高故障(zhang)率(lv)。

這(zhe)主(zhu)要和機型設計和生(sheng)產質(zhi)量管控有關,就不(bu)闡述(shu)了。我(wo)們能做的是選擇故(gu)障(zhang)率低的廠(chang)商和機型。

2. 服務器運行時間久了,故障率會隨之提升

對于云平臺(tai)廠商,可(ke)以監(jian)控這一切故障發生前的(de)征兆,并主動采取措施,通過熱遷移手段避(bi)免(mian)云主機受影響。

3. 硬件宕機和部件缺陷關系很大

我們(men)的統計發現,部件(jian)種類里,硬盤(pan)故障故障率最高,其次內存硬件(jian)、RAID 卡等(deng)。

對(dui)(dui)于(yu)硬盤故(gu)障,可以通(tong)過(guo) RAID 方式規避。對(dui)(dui)于(yu)內存硬件,可以通(tong)過(guo)內存故(gu)障隔離等(deng)內核手段,大幅度減少其硬件故(gu)障造成的宕機及(ji)影響。

總的(de)來講,通(tong)過上述這(zhe)些工作,云平臺廠商可以(yi)讓(rang)服務器硬件故(gu)障率(lv)逐(zhu)步(bu)降(jiang)低。其實,可以(yi)做的(de)更(geng)多,篇幅原因就(jiu)不(bu)講了。而(er)這(zhe)樣的(de)工作,對于沒(mei)有海量(liang)環境(jing)的(de)公司是很難做的(de),效果(guo)也不(bu)佳。

另外,云(yun)平臺廠商可以(yi)替用戶修(xiu)復云(yun)主(zhu)機內核的 BUG 和安全漏(lou)洞,降低內核故障率。

我們在這方面做了一(yi)些工作,內核版本會及(ji)時更新(xin),關(guan)鍵漏洞會提供(gong)免(mian)重啟熱補(bu)丁(ding)修復包。

觀點總結

簡要總結一下本文的主要觀點:


  1. 云主機相比物理機,虛擬化層和宿主機內核的額外復雜性及故障率可以被優化至接近 0 即可以忽略。

  2. 服務器硬件故障,云平臺可以不斷降低其故障率,主要手段通過內核隔離硬件故障、熱遷移規避故障隱患,以及監控故障率并主動下架不良廠商機型等。

上述(shu)這些工作都需(xu)要非常專(zhuan)業的(de)運維團(tuan)隊和(he)內核團(tuan)隊才能實施,如果沒有足夠(gou)大的(de)服務器數量(liang)是很難(nan)開展的(de)。

而大(da)型云(yun)廠(chang)商往(wang)往(wang)管理(li)幾(ji)萬、幾(ji)十萬服務器,因此(ci)具備(bei)這樣(yang)的(de)條件。也(ye)因此(ci),云(yun)主機(ji)故障率能低于(yu)物理(li)機(ji)(當然,如果什(shen)么(me)都不(bu)做,云(yun)主機(ji)故障率一(yi)定是(shi)高于(yu)物理(li)機(ji)的(de))。


相關文章

展開
聯系電話: 客服QQ: