【問題描述】
某天早上(shàng),公司内部好多(duō)辦公系統登錄失敗。郵件(jiàn)系統、流程管理、代碼管理等。但是過了大概一(yī)個(gè)小(xiǎo)時,基本所有情況都恢複正常。
【問題确認】
業(yè)務系統的狀況:沒有任何異常情況,一(yī)切訪問正常。
數據中心基礎實施:連續好多(duō)系統報(bào)警,而且還(hái)有物(wù)理主機(jī)報(bào)警,問題一(yī)大堆。
【解決過程】
先來描述一(yī)下(xià)環境,基本90%以上(shàng)系統運行在Vmware虛拟化平台之上(shàng),業(yè)務系統和内部辦公管理系統完全隔離為(wèi)兩個(gè)不同的集群環境。
辦公區為(wèi)8台宿主機(jī)組成的物(wù)理集群,集群共享一(yī)台存儲設備上(shàng)的存儲資源。
首先,我們再一(yī)次确認了宿主機(jī)的情況,5台宿主機(jī)當前運行狀态正常,虛拟機(jī)也處于正常狀态。隻有一(yī)台宿主機(jī)處于失聯狀态。當把這一(yī)台宿主機(jī)再次重新啓動之後,它也恢複正常了。
再次,查看(kàn)問題發生(shēng)時間的日志(zhì),包括宿主機(jī)日志(zhì)。我們發現有好多(duō)虛拟機(jī)發生(shēng)了HA切換,不僅僅是故障主機(jī)上(shàng)的虛拟機(jī),而且還(hái)包括其他非故障主機(jī)上(shàng)的虛拟機(jī)。再仔細看(kàn),還(hái)有好多(duō)虛拟機(jī)發生(shēng)了熱遷移,有的遷移失敗,有的遷移成功。總之幾乎所有主機(jī)上(shàng)的虛拟機(jī)發生(shēng)過HA和熱遷移現象。
随後,我們再次确認宿主機(jī)硬件(jiàn)日志(zhì),發現故障時刻點先後有三台宿主機(jī)發生(shēng)重新啓動。這樣的話,事(shì)情就(jiù)清楚了,幾台宿主機(jī)先後發生(shēng)重新啓動,觸發宿主機(jī)上(shàng)的虛拟機(jī)發生(shēng)HA,在這個(gè)過程中由于資源使用的瞬間不均衡,又(yòu)觸發了DRS的自(zì)動遷移。這麽多(duō)事(shì)情發生(shēng)的時間又(yòu)是如此之集中,導緻面積性的故障發生(shēng)。
【問題總結】
此次問題之後,我們根據環境資源重新評估了HA和DRS等的策略,将激進策略修改為(wèi)相(xiàng)對保守的策略。
本來虛拟化的HA和DRS策略是為(wèi)了保障虛拟機(jī)的平衡和高(gāo)可用性的機(jī)制,但是在某種不合理策略策略和極端物(wù)理故障場合下(xià)就(jiù)有可能(néng)導緻比正常故障範圍還(hái)要大很多(duō)的面積性故障。試想,如果DRS處于非激進狀态,那麽在發生(shēng)HA的時候,即使資源不夠,那麽故障範圍僅限于很小(xiǎo)一(yī)部分虛拟機(jī),不會(huì)發生(shēng)彼此影響,而且時間集中化的影響。尤其是Windows的虛拟機(jī),成功熱遷移的概率比Linux要低(dī)很多(duō)。所以提醒大家合理設置高(gāo)可用策略。
在基于X86虛拟化架構實現的過程當中,相(xiàng)信每一(yī)個(gè)工(gōng)程師(shī)在回憶的時候都不會(huì)覺得裡(lǐ)面有太複雜(zá)太難以忘卻的困難點,都覺得是一(yī)個(gè)非常容易上(shàng)手的項目。但是是否能(néng)夠提供一(yī)個(gè)穩固安全高(gāo)效的虛拟化架構平台其實并不是一(yī)件(jiàn)很簡單的事(shì)情。
上(shàng)述故障及其解決隻是其中一(yī)個(gè)案例。
網絡虛拟化設計、集群高(gāo)可用設計、資源調度策略設計、存儲的高(gāo)可用高(gāo)性能(néng)設計、部署實現動态化及運維的自(zì)動化等等都是需要精心考慮、細緻琢磨、頻繁優化才能(néng)使其成為(wèi)一(yī)個(gè)功能(néng)擴展性強、功能(néng)穩定可靠、性能(néng)發揮持久化的基礎平台。
為(wèi)此,社區在12月(yuè)30日将基于虛拟化架構當中的高(gāo)可用設計方面進行細緻深入探讨。
拟從(cóng)以下(xià)幾個(gè)方面展開(kāi):
1 集群的高(gāo)可用性策略及參數選擇。
2 集群的資源分配策略制定。
3 集群的資源調度功能(néng)策略規劃。
4 在複雜(zá)應用負載均衡策略條件(jiàn)下(xià)的HA及DRS策略規劃細節。
5 存儲高(gāo)可用實現的方式以及優劣選擇。
希望有更多(duō)的同業(yè)兄弟(dì),能(néng)夠基于這些方面以及相(xiàng)關的擴展方面仔細回憶,把自(zì)己珍貴的經曆和總結分享給大家。
同時也希望在這些方面有過疑問以及現在仍然有很多(duō)疑問的的兄弟(dì)提出自(zì)己的問題和思考,我們一(yī)起讨論一(yī)起分析。使我們在這條路(lù)上(shàng)多(duō)些朋友(yǒu)多(duō)些見(jiàn)解,共同成長(cháng)。
·············
信息來源:AIX專家俱樂部
原文點擊:
高(gāo)可用策略不合理導緻的面積性故障