第二期 - 資料中心分散式存儲互聯測試

資料中心分散式存儲互聯測試 | 網路模擬技術分享系列第二期
上一期網路模擬技術分享,我們介紹了真實的網路環境有哪些方面需要進行模擬與測試,本期技術分享我們將聚焦資料中心分散式互聯測試。
 
資料中心集中式和分散式架構
資料中心是一個用於存儲、處理和管理大量電腦系統和相關設備的專用設施。它為各種應用和服務,例如企業IT系統、雲計算服務、大型網站、線上服務等,提供基礎設施和計算資源。隨著各行業的蓬勃發展,資料中心的建設也在加速中。雲計算、大資料和物聯網等新興技術的廣泛應用也使得資料中心正在成為政府機構、網路公司、醫療和金融行業等領域建設的重點。
資料中心的關鍵任務之一是確保在任何情況下都能提供高可用性和穩定性,以滿足業務連續性的需求。
傳統資料中心利用硬體、軟體和網路通信資源來進行資料存儲和分析。然而隨著業務規模地增長以及處理大規模,高密度資料的需求增加,傳統集中式架構資料中心在存儲能力、處理速度、安全性以及網路延遲方面的局限性越發變得明顯。[1]
而基於分散式架構的資料中心是一個和集中式架構相對應的技術體系,包括了分散式業務部署、分散式運算、存儲、網路安全等多種分散式技術的集成[2]。當傳統集中式架構資料中心的發展達到了一定瓶頸,分散式架構開始受到關注,成為一個有效的替代方案。
分散式架構資料中心在技術層面上,主要包括兩個核心概念:單資料中心分散式架構與多資料中心分散式架構。單資料中心分散式架構,主要包括分散式運算、存儲、安全網路等多種分散式技術的集成。多個資料中心的分散式架構,例如分散式雲資料中心模式,主要通過雲計算實現多資料中心的一體化,實現業務連續性和災害恢復(Disaster Recovery),多中心運營和管理等目標。[1]
在分散式雲資料中心的概念裡,多個資料中心不再僅限於傳統的“主備(Active-Passive)”或“雙活(Active-Active)”模式[3]。相反,它們通過雲計算、區域網路第二層網路互連(也稱為大二層網路)和資料複製技術,共同構成一個分散式的跨中心和地域的“虛擬資源池”。這樣,所有的業務和資料可以根據需求靈活地分配到各個資料中心,從而提供比傳統資料中心模式更高效的業務部署解決方案。[1]

  [4] 原圖自:https://www.h3c.com


但分散式架構相對複雜,節點多,資訊資源分散,相關伺服器和網路設備多且複雜[2],部署的優勢和風險並存。
比如真實區域網路中存在有限的頻寬、時延、丟包、抖動、亂序、重複封包、擁塞、誤碼等影響網路品質的因素。這些狀況會降低資料中心網路應用的性能以及資料傳輸的輸送量。
在部署前只有通過在實驗室中模擬出真實的區域網路環境,進行伺服器、路由器相關參數和設定的最佳化,以及對各種極端的網路情況進行測試驗證,才能更好地保證部署以後應用的性能,避免出現未知的問題,減少維護成本的費用,提升客戶的體驗。
 
如何進行資料中心互聯的損傷(Impairment)測試?
這裡我們簡要介紹幾個資料中心分散式互聯的損傷測試:
1. 時延模擬測試
分散式存儲架構的資料中心,通常兩個或多個資料中心之間相距會有幾十、幾百甚至幾千公里的地理距離。這中間會經過企業內部網路,運營商的網路等多跳路由器和交換機。所以首先需要模擬長距傳輸,構建時延模擬測試。光纖或者電纜通常一米會產生4.9ns到5.1ns的時延,通過一台路由器或者交換機會產生幾個µs到幾十µs的固定時延。兩個資料中心通常相距幾百或者幾千公里,一般會有幾ms到幾十ms的時延。如果遇到網路擁塞,可能出現100—200ms的時延。在實驗室測試,通常可以測試不同級距時延下業務的輸送量。另外還需測試極限值,以此來瞭解實際佈網時,應用對於網路品質的要求。

2. 抖動
抖動即為時延的變化,通常應用層業務會根據時延和抖動的情況,進行業務流量的調整。對於抖動,可以結合多種抖動模型進行測試,例如在固定時延上下,按照百分比抖動,高斯模型,隨機的均勻模型等。
 
3. 丟包
丟包以後,通常需要對資料重傳,必然會導致資料輸送量地下降。丟包的劇烈程度,也決定了整個網路的傳輸性能。測試時可以根據不同級距的丟包比例,對業務進行研究。例如萬分之一,千分之一,百分之一,百分之十等。
 
4. 亂序
資料包因為IP層規劃的路由鏈路不同,導致亂序發生。另外丟包以後,部分封包的重傳也會導致亂序。測試時,可以進行不同程度的亂序模擬,例如千分之一,百分之一,百分之十,百分之五十等級距,進行不同亂序深度地模擬。另外可以通過參數最佳化,減少亂序對於輸送量的影響。
 
5. 重複包
由於時延抖動和網路擁塞的影響,重複包在實際網路中也很常見。測試時可以模擬多個重複包,來查看伺服器等所受的影響。
 
6. 負載均衡測試
通常資料中心都有主備保護鏈路。通過同時在不同線路上進行不同損傷參數的測試,驗證負載均衡,負載分擔的可靠性和穩定性。特別是對於含有權重的測試,真正起到模擬驗證的作用,防患於未然。
 
7. 警報、日誌的驗證
通常資料中心網路是有智慧監控的,對於網路品質的變化有日誌和警報的提示。測試時可以根據觸發警報或者日誌的邊界值,對損傷效果進行模擬,來驗證這些機制是否生效。
 
Calnex 資料中心互聯損傷測試解決方案
Calnex根據資料中心互聯損傷測試需求,提供了完整的網路環境模擬解決方案。
- 介面和數量
支援最多16個25GbE或者8個100GbE埠,並且可以支援在一個GUI上進行多台儀器的串聯控制,構建廣闊的測試拓撲圖。

  8個100GbE埠GUI介面


 16個25GbE埠GUI介面


- 多流併發
支援單介面20條以上的篩檢程式設定,可以對多條合併發送的流量分別進行損傷場景模擬。一次測試,完成多個測試點測試,模擬真實網路。
例如: 對於同時通過的192.168.1.100、192.168.2.100、192.168.3.100、192.168.4.100、192.168.5.100和192.168.6.100的併發流量同時進行不同的網路損傷模擬。
   多流併發

- 篩檢程式過濾VXLAN
支持對任意封包任意欄位進行過濾,除了常規的IP, MAC,TCP/UDP過濾,支持通過封包偏移量,根據封包結構進行過濾。例如VXLAN IPv6來源位址目的位址的過濾,資料中心間很多都是通過VXLAN業務進行連接的。
 篩檢程式過濾VXLAN

- 支援背景流量模擬
模擬在資料流程量基礎上添加TCP或者UDP流量,模擬網路攻擊。例如,頻寬、MAC位址、IP位址和埠號,可以根據需要構造的背景流量,在業務流量經過的同時進行注入。
 背景流量添加

- 支援抓包和重播
可以抓取流量,並按照原始時間戳記進行流量重播,也可以對封包進行一些修改以後重播,用於分析問題和故障回溯定位。
例如,抓取鏈路上經過的業務封包進行分析,同時也可以重播想要模擬的封包。儀器生成的檔均為PCAP格式的通用檔。

  抓包重播


- Timeline自動化
支援GUI上Timeline自動化進行快速動態損傷測試環境模擬,模擬真實變化的網路環境。
例如,對未添加任何損傷的場景、只添加時延損傷的場景、只添加抖動損傷的場景、只添加丟包損傷的場景以及同時添加時延抖動丟包的場景進行動態化模擬。這個功能可以更好的對真實變化的網路環境進行準確地模擬。
 Timeline自動化



本文參考連結及注釋:
[1] http://www.xinhuanet.com/techpro/20211112/2a033fadefc84e488574669c9780e3c5/c.html
[2] https://www.iyiou.com/news/20191029116586
[3] 為實現業務連續與災害恢復監管等目標,企業通常建設同城鄰地或異地的雙資料中心或 “兩地三中心”。兩地三中心指生產資料中心、同城鄰地災害恢復中心、異地災害恢復中心。這幾種模式下,多個資料中心通常是主次關係。正常情況下,主資料中心承擔核心業務,其他資料中心負責輔助業務,並備份主資料中心的資料、設定和業務;如發生災害(如火災、洪水、地震、駭客入侵、系統故障等),主資料中心若停止運行,備用資料中心可以快速地恢復資料和應用,接管業務,從而減少損失,提高客戶滿意度。參考連結:https://www.h3c.com/cn/d_201311/802516_30008_0.htm
[4] 原圖自:https://www.h3c.com/en/d_201601/914456_294551_0.htm
 
TOP