您的位置:軟件測試 > 開源軟件測試 > 開源軟件測試新聞 >
分布式系統測試的難點與分析
作者:網絡轉載 發(fā)布時間:[ 2013/3/8 16:44:48 ] 推薦標簽:

分布式系統具有軟硬件平臺分布性、高穩(wěn)定性、高可用性、高可擴展性、高可管理性、高并發(fā)性及數據一致性等多種特性。正是由于這些重要的特性,使得分布式系統的測試過程變得相對復雜和困難。本文主要從分布式系統測試的四個重要方面出發(fā),探討分布式系統測試過程中存在的一些難點問題并進行適當的分析。

分布式系統測試環(huán)境

一般來說,分布式系統是由一組服務器或者網絡設備組成(如圖1)。我們在部署測試環(huán)境的時候,所涉及的系統架構也會是比較復雜的,有以下幾個方面:

    網絡架構。在圖1中,我們應該如何在本地測試實驗室環(huán)境中模擬分別位于北京和紐約的兩個數據中心呢?由于地理原因,北京和紐約之間網絡的RTT(Round Trip Time)至少不會低于某個值。所以,在正式進行測試之前,我們需要構建出測試所需要的網絡環(huán)境,模擬出這樣的固定網絡延時。
    硬件要求。例如,我們曾經測試過一個分布式的文件系統,數據服務器要求運行在裸盤設備上(數據的存儲格式、尋址方式自定義以提高查找速度),所以,在安裝操作系統時需要特別考慮這樣的需求。同時,在測試前,我們需要按照系統設計的要求采購硬件設備。例如,硬盤的規(guī)格(SATA硬盤還是SAS硬盤)、內存的規(guī)格等。
    配置復雜。分布式系統涉及的軟硬件平臺較多,整個系統中需要設置的參數項非常多,系統配置過程會相應地變得復雜、困難和易錯。例如,在圖1中,我們需要配置的系統配置文件至少有十多個。

如果條件允許的話,分布式系統的測試環(huán)境應該由測試工程師自己來搭建。系統管理員、網絡管理員等都沒有辦法完全代替測試工程師來進行這些工作,因為他們并不清楚在實際的測試過程中,測試工程師對軟硬件環(huán)境的具體需求是什么,尤其是不同的測試用例對于環(huán)境的要求可能是不一樣的。

分布式系統功能測試

在測試執(zhí)行過程中,對測試結果的分析是一個需要進行深入思考的重點問題。分布式系統測試的重點在于對后端服務器集群的測試,而判定系統中是否存在Bug則是我們需要解決的重要問題。那么應該如何確定是否存在Bug呢?

對于測試結果的分析,我們通常觀察下面幾種情況。

    觀察前端應用的返回結果。這里需要分兩種情況來考慮:第一,按照前端應用業(yè)務功能點及流程進行操作,觀察返回結果是否符合業(yè)務方的需求預期;第二,操作后端的服務器(通常是重啟、宕機、斷網等操作),觀察前端應用的返回結果是否符合系統的設計需求。
    分析服務器日志。在功能測試過程中,當我們在啟動服務器的時候,需要將日志級別定義為Debug級別(低級別)。這樣做的主要目的是為了能便于測試工程師來分析日志和定位問題。為了能更好地定位問題,常常需要在服務器程序代碼中進行日志打樁,把程序中的一些重要數據通過日志的方式展現出來。通常情況下,我們需要對日志的格式進行約定,在日志行中增加一些關鍵字來進行分類,這將便于測試工程師進行日志分析,也有利于開展分布式系統的自動化測試。另外,值得注意的是,我們盡可能地將打樁代碼放在Debug代碼中,避免影響系統代碼,引入新問題。
    分析操作系統的一些重要信息。我們測試的分布式系統絕大多數是基于Linux操作系統開發(fā)的,在測試的過程中,除了詳細分析程序日志以外,還需要對操作系統的一些重要數據信息進行分析,從而來診斷服務器程序是否存在異常。以Linux操作系統為例,我們常常會使用top命令、netstat命令及sar命令來查看操作系統的一些數據信息。例如,可以通過netstat命令檢查服務器程序是否正確地監(jiān)聽了指定的端口等。
    借助其他分析工具。例如,如何判斷服務器程序是否產生了內存泄漏?通常需要借助于內存檢測工具來進行分析。在Linux環(huán)境下,我們常用Valgrind來進行內存檢測。這是一款非常好用、功能強大的分析工具(官方網站:http://www.valgrind.org/),可以幫助測試或者開發(fā)工程師快速發(fā)現很多隱藏的程序Bug,尤其是在內存檢測方面(同時它還具有很多其他的功能,讀者可以自己查看官網中的使用手冊)。

分布式系統壓力測試與性能測試

對于分布式系統而言,壓力測試和性能測試非常重要。在進行壓力測試和性能測試的時候,可能會碰到下面一些難點。

    數據準備。如何準備海量的測試數據并保證模擬數據的真實性?以一個分布式的文件系統為例,預先存入100GB的數據還是存入100TB的數據、存入的文件是大小基本一致差別不大還是各不相同甚至差異很大(例如,從幾十字節(jié)至幾十兆字節(jié)不等),這些因素對于分布式系統的性能影響是有很大差異的。另外,如果需要預先存入100TB的數據,若按每秒寫入100MB數據來計算,寫入100TB數據需要100×1024×1024/100=1048576秒=291.27小時=12天。我們是否能忍受這么長時間的數據準備工作?為了解決這樣的問題,我們需要對系統架構設計進行深入分析,設計好測試場景,并提前進行測試用例的設計,以盡早開始準備測試數據。
    性能或壓力測試工具。通常來說,分布式系統的測試需要開發(fā)一些測試工具來滿足性能測試的需求。如果可以的話,建議這樣的測試工具好由測試工程師自己來實現,因為測試工程師更清楚自己的測試需求。當需要自己開發(fā)測試工具的時候,有兩個關鍵問題需要重點關注:第一,一些關鍵數據的收集方式與計算將成為性能測試工具的關鍵,例如,TPS(每秒請求數)、Throughput(吞吐量)計算的準確性;第二,要保證性能測試工具的性能,如果工具本身的性能不好,將無法給予分布式系統足夠強大的壓力來進行測試。另外,當考慮到多并發(fā)(例如有10萬客戶端同時并發(fā)連接)時,如果性能測試工具在一臺測試機器上只能運行50個或者更少的話,那么需要的測試機器數量也將會很龐大(例如2000臺測試機),這個成本或許是許多公司不能承受的。因此,性能測試工具本身的性能必須要足夠好才能滿足需求、降低測試成本。

分布式系統自動化測試

自動化測試是測試行業(yè)發(fā)展的必然趨勢,對于分布式系統測試而言也不例外。在實施分布式系統自動化測試的過程中,我們可能會碰到下面兩個難點問題。

    涉及平臺多且硬件雜,測試流程控制困難。在實施自動化測試的過程中,測試腳本需要控制的操作系統和應用程序很多,而且存在跨平臺的特性,同時還有可能需要控制一些網絡設備。因此,選擇一個的自動化測試框架成為了非常重要的工作之一。以我們的實踐經驗來看,STAF是一個不錯的選擇(官方網站:http://staf.sourceforge.net/),它的平臺(Windows及Linux各版本)支持及開發(fā)語言的支持都很全面。
    測試結果驗證復雜。對于分布式系統的自動化測試來說,我們需要通過測試腳本來收集各種測試結果數據以驗證測試結果的正確性。在實施自動化測試的過程中,我們可以將測試結果數據收集部分模塊化,通過各子模塊來檢測各項數據是否正確。例如,我們會設計一個日志分析模塊,主要負責從服務器應用程序的日志中收集相應數據進行對比驗證(本文前面提到的在打樁日志中增加關鍵字部分顯得格外重要)。

隨著互聯網的發(fā)展,大型分布式系統也越來越多、越來越復雜、越來越重要。如何有效地保證大型分布式系統7×24小時全天候持續(xù)穩(wěn)定地運行也成為了一個重要課題。本文希望通過對分布式系統測試過程中碰到的一些難點問題的分析給予讀者一定的啟發(fā)。

作者簡介:

帥丹文,測試技術專家,近十年測試與開發(fā)工作經驗,目前負責淘寶基礎應用測試團隊,對測試架構以及自動化測試、接口測試、分布式系統測試有深入的研究。

軟件測試工具 | 聯系我們 | 投訴建議 | 誠聘英才 | 申請使用列表 | 網站地圖
滬ICP備07036474 2003-2017 版權所有 上海澤眾軟件科技有限公司 Shanghai ZeZhong Software Co.,Ltd