如何提升IT架構(gòu)的可用性
- 來源:縱橫數(shù)據(jù)
- 作者:中橫科技
- 時間:2015/10/22 16:06:05
- 類別:新聞資訊
IT架構(gòu)是指由服務器、存儲、網(wǎng)絡、操作系統(tǒng)、數(shù)據(jù)庫、中間件以及各類管理工具等共同構(gòu)成的IT運營環(huán)境。提升IT架構(gòu)的可用性可以明顯提升IT系統(tǒng)整體的可用性、安全性和持續(xù)性。要實現(xiàn)IT架構(gòu)的高可用性,不僅需要在數(shù)據(jù)中心基礎(chǔ)設施方面實現(xiàn)高可用性,還需要在服務器、存儲、網(wǎng)絡、操作系統(tǒng)、數(shù)據(jù)庫、中間件等方面滿足高可用性需求。
主機系統(tǒng)高可用性解決方案
當應用系統(tǒng)的主機發(fā)生故障時,可利用主機的集群技術(shù)來解決,當一臺主機發(fā)生故障后,業(yè)務系統(tǒng)會自動切換到其它主機繼續(xù)提供服務。目前,主機的群集主要分為本地群集和遠程異地群集兩種,群集方式主要包括主備方式、互備方式和并發(fā)方式。
主備方式采用N+1備份方式,即用1臺主機作為多臺主機的備份主機,當某一臺生產(chǎn)主機發(fā)生故障時,用備份主機接替生產(chǎn)主機運行。
互備方式一般是兩臺主機分別運行不同的應用系統(tǒng),互為備份,當某一臺主機的某個應用系統(tǒng)發(fā)生故障時,啟用另一臺主機的備份系統(tǒng)運行。
并發(fā)方式一般是多臺主機運行同一個應用系統(tǒng),并實現(xiàn)負載均衡,當某一臺主機出現(xiàn)故障時,其他主機接管故障主機,并重新進行負載均衡。
存儲系統(tǒng)高可用性解決方案
對于單一存儲配置,可通過磁盤RAID技術(shù)加熱備磁盤來解決,對于存儲本身一般都采用雙磁盤控制器和雙電源實現(xiàn)冗余配置;當磁盤發(fā)生故障時可以通過熱備磁盤及時替換來進行故障處理,當存儲控制器故障時可以實現(xiàn)連個控制器的自動切換。電源故障時有冗余電源,不會因造成存儲的故障造成數(shù)據(jù)庫的數(shù)據(jù)丟失。
對于冗余存儲配置,采用冗余存儲,利用存儲之間的鏡像技術(shù),使數(shù)據(jù)同時保存在兩個存儲上;或者邏輯卷鏡像的方式來實現(xiàn)存儲系統(tǒng)的高可用性,采用多路徑技術(shù)將業(yè)務數(shù)據(jù)分別保存在兩個存儲或者兩個不同的邏輯卷上,當一個存儲或者一個邏輯卷發(fā)生故障,數(shù)據(jù)庫主機系統(tǒng)會自動切換到另外一臺存儲或者另外一個可用的邏輯卷上。
網(wǎng)絡高可用性解決方案
在多個數(shù)據(jù)中心網(wǎng)絡系統(tǒng)的建設中需要遵循有關(guān)的網(wǎng)絡互聯(lián)標準、規(guī)范,選用合適的網(wǎng)絡互聯(lián)技術(shù)及產(chǎn)品(包括交換,路由及接入設備),依托公共通信設施可提供的通信環(huán)境,采用完備的網(wǎng)絡設備構(gòu)筑起一個結(jié)構(gòu)合理、性能良好、安全可靠的網(wǎng)絡通信平臺,在其基礎(chǔ)上可以實現(xiàn)高質(zhì)量的數(shù)據(jù)和圖像、文件等的通信、復制服務,達到提供高質(zhì)量通信服務的目標。
網(wǎng)絡系統(tǒng)作為承載業(yè)務系統(tǒng)的基礎(chǔ),系統(tǒng)的高可用性是保證業(yè)務連續(xù)性要求的重要保證,網(wǎng)絡系統(tǒng)的短時間中斷就可能影響大量業(yè)務,造成不可挽回的重大損失。
因此多中心的網(wǎng)絡系統(tǒng)建設應具備完整容錯能力和最小網(wǎng)絡故障恢復時間,網(wǎng)絡的結(jié)構(gòu)應具有冗余性及可恢復性,網(wǎng)絡設備的高可用性,充分保證了網(wǎng)絡系統(tǒng)的整體高可用性。由于業(yè)務連續(xù)性的要求,99.999%的網(wǎng)絡高可用(一年中不能提供服務的時間在5分鐘左右),已經(jīng)開始成為雙中心網(wǎng)絡建設的基本要求。
為保證雙中心網(wǎng)絡系統(tǒng)的高可用性需從以下幾方面考慮:
網(wǎng)絡設備的冗余設計
在網(wǎng)絡設備的選擇上應考慮設備自身冗余配置,包括設備自身的冗余電源及風扇、冗余引擎、無源備板、冗余控制單元、冗余內(nèi)存單元、冗余數(shù)據(jù)存儲單元、冗余端口等設計,可以有效減少設備自身故障導致的業(yè)務系統(tǒng)中斷。
網(wǎng)絡連接架構(gòu)冗余設計
在層次化結(jié)構(gòu)的網(wǎng)絡系統(tǒng)中,接入層、匯聚層、核心層之間的連接需配置多條冗余鏈路,并可以實現(xiàn)鏈路之間的自動切換,以保證故障發(fā)生時最小的中斷時間。
數(shù)據(jù)中心的網(wǎng)絡系統(tǒng)與各外聯(lián)機構(gòu)的連接線路類型、數(shù)量、運營商及帶寬都應有所不同,當每個外聯(lián)都有兩條或兩條以上不同運營商線路連接的情況,采用相應的線路自愈技術(shù),可以實現(xiàn)線路的快速接替,避免由于運營商的問題造成對業(yè)務的影響。
網(wǎng)絡設備的業(yè)務連續(xù)性機制
在多中心網(wǎng)絡系統(tǒng)設計中,核心設備以及關(guān)鍵設備需在不停機情況下,實現(xiàn)不停機擴容、維護、升級等服務,提高性能以滿足新的業(yè)務需求,并具有7×24×365連續(xù)工作的能力。
數(shù)據(jù)庫高可用解決方案
數(shù)據(jù)庫的高可用性是建立在主機高可用性的基礎(chǔ)之上的,必須要用高可用的主機集群和高可用性的存儲來保證。數(shù)據(jù)庫的高可用性解決方案可實現(xiàn)不同場景下的數(shù)據(jù)恢復和業(yè)務連續(xù)性。
對于主機故障導致的業(yè)務中斷,可通過數(shù)據(jù)庫群集技術(shù),如Oracle RAC(Real Application Cluster)技術(shù),實現(xiàn)數(shù)據(jù)庫的無縫連接,當一個主機系統(tǒng)發(fā)生故障時,業(yè)務系統(tǒng)無需中斷,可以繼續(xù)連接到集群中的其它數(shù)據(jù)庫服務器上進行業(yè)務操作,保持業(yè)務的連續(xù)性。
對于人為誤操作導致的業(yè)務中斷,可采用數(shù)據(jù)庫回滾操作,或者利用恢復技術(shù)從已經(jīng)備份的數(shù)據(jù)文件中,恢復數(shù)據(jù)庫對象。同時可通過限制用戶的訪問,只允許數(shù)據(jù)庫操作人員對執(zhí)行業(yè)務實際所需的數(shù)據(jù)和服務進行訪問,嚴格控制數(shù)據(jù)庫操作人員對數(shù)據(jù)庫的訪問權(quán)限。
對于數(shù)據(jù)損壞導致的業(yè)務中斷,可通過數(shù)據(jù)庫系統(tǒng)本身的備份恢復技術(shù),提供的各種形式在線備份,例如ORACLE數(shù)據(jù)庫的RMAN及exp備份以及數(shù)據(jù)文件的在線備份,SQL Server的BCP備份。當數(shù)據(jù)庫發(fā)生文件故障時,可以利用備份文件對數(shù)據(jù)庫進行快速恢復,從而保證數(shù)據(jù)安全性。
對于站點故障導致的業(yè)務中斷,可通過在本地或遠程創(chuàng)建并維護一個生產(chǎn)數(shù)據(jù)庫副本。在遭遇災難或發(fā)生損壞事件時,數(shù)據(jù)用戶將可以通過訪問遠程數(shù)據(jù)庫繼續(xù)保持工作。數(shù)據(jù)保護的最簡單形式為離線存儲數(shù)據(jù)庫備份文件。當數(shù)據(jù)庫無法在合理的事件內(nèi)繼續(xù)提供服務時,備份文件可恢復到其它站點的系統(tǒng)中,從而使用戶可以連接至備份系統(tǒng)。常見的技術(shù)包括Oracle的DataGuard、Quest SharePlex for oracle、Golden Gate、DSG RealSync等技術(shù)。這些技術(shù)可以實現(xiàn)數(shù)據(jù)庫的準實時復制,將數(shù)據(jù)庫的日志傳輸?shù)疆惖,再進行數(shù)據(jù)庫SQL重用,將數(shù)據(jù)重新寫入到副本數(shù)據(jù)庫中,實現(xiàn)數(shù)據(jù)庫的異地站點保護。
對于由于數(shù)據(jù)更改導致的業(yè)務中斷,目前的數(shù)據(jù)庫,如Oracle可在不停機的情況下對數(shù)據(jù)庫進行運維。比如:為 SMP 服務器添加或刪除處理器;在線添加或刪除 RAC 集群中的節(jié)點;動態(tài)增加共享內(nèi)存分配,自動線調(diào)整內(nèi)存;在線添加或刪除存儲,同時不影響數(shù)據(jù)庫訪問;作到在線運維;在線移動數(shù)據(jù)庫文件;在線數(shù)據(jù)庫備份與恢復。