經(jīng)過20多年的發(fā)展,寶德持續(xù)而深刻地把握市場(chǎng)需求,積累了海量的客戶資源和豐富的服務(wù)經(jīng)驗(yàn)
易源興華公司是我國石油勘探領(lǐng)域內(nèi)一支強(qiáng)有力的研發(fā)隊(duì)伍,其在地震偏移處理及解釋方面開發(fā)了一套獨(dú)有的高效軟件,代表了在這一領(lǐng)域的最高技術(shù)水平。公司主要客戶涵蓋中國海洋石油、中國石油等石油勘探研究所。石油勘探系統(tǒng)包括三個(gè)環(huán)節(jié):數(shù)據(jù)采集、地震偏移處理、成像解釋。其中的關(guān)鍵應(yīng)用為地震偏移處理。寶德集群主要支持后兩者。地震偏移處理對(duì)計(jì)算機(jī)廠商的要求最為苛刻,要求計(jì)算機(jī)具備高 IO 帶寬,高計(jì)算能力。一直以來,SGI、SUN、IBM 等國際 IT 巨頭憑借多年來在該領(lǐng)域積累的經(jīng)驗(yàn)壟斷了這一市場(chǎng),包括易源興華公司在內(nèi)的石油行業(yè)一直采用國外產(chǎn)品。近年來,我國開始自主研發(fā)石油系統(tǒng)地震偏移處理軟件,力求打破了國際軟件廠商的壟斷。在硬件方面,國產(chǎn)廠商也不斷發(fā)力,縮小了同國際廠商之間的差距,開始登上石油勘探領(lǐng)域的舞臺(tái)。在認(rèn)真分析客戶需求的基礎(chǔ)上,寶德打出了一套組合牌,成功贏得這個(gè)項(xiàng)目。
在了解 CGG、Omega 等地震偏移軟件方面的資料后發(fā)現(xiàn)石油行業(yè)高性能計(jì)算應(yīng)用,要求硬件設(shè)備具備以下幾個(gè)特性:
節(jié)點(diǎn)的高可靠性,避免計(jì)算節(jié)點(diǎn)和管理節(jié)點(diǎn)頻繁死機(jī)。
I/O 的高并發(fā)及高帶寬訪問,由于節(jié)點(diǎn)數(shù)較多,存儲(chǔ)系統(tǒng)不僅需要滿足高并發(fā)的讀寫訪問需求,而且還要提供高帶寬的讀寫相應(yīng)能力具有便捷的集群管理方案,提供簡(jiǎn)單易用的集群管理工具和接口。
多套針對(duì)不同應(yīng)用的網(wǎng)絡(luò),數(shù)據(jù)網(wǎng)、計(jì)算網(wǎng)和管理網(wǎng)分離,互相無干擾。
針對(duì)上述應(yīng)用分析的結(jié)果,我們?cè)O(shè)計(jì)了一套高性能計(jì)算集群整體解決方案。
計(jì)算部分包含 50 臺(tái) 2U 機(jī)架式 CPU 計(jì)算節(jié)點(diǎn),10 臺(tái) 2U 機(jī)架式 GPU 計(jì)算節(jié)點(diǎn)及相應(yīng)輔助節(jié)點(diǎn)。共擁有 20Tflops 的計(jì)算能力。其中每臺(tái) CPU 計(jì)算節(jié)點(diǎn)根據(jù)應(yīng)用特點(diǎn),特別設(shè)計(jì)了由 7 塊高速 SAS 盤做 RAID0 組成的高性能本地?cái)?shù)據(jù)盤。每臺(tái) GPU 計(jì)算節(jié)點(diǎn),特別設(shè)計(jì)了由3 塊 GPU 加速的高性能異構(gòu)計(jì)算環(huán)境。網(wǎng)絡(luò)部分采用網(wǎng)絡(luò)分離結(jié)構(gòu),包括管理網(wǎng)和計(jì)算網(wǎng)。管理網(wǎng)絡(luò)設(shè)計(jì)使用最普遍的千兆以太網(wǎng)作為整個(gè)集群的管理網(wǎng)。它保障了所有節(jié)點(diǎn)最基本的互通互聯(lián)需求,方便了管理員遠(yuǎn)程登陸。同時(shí)也肩負(fù)操作硬件底層芯片實(shí)現(xiàn)遠(yuǎn)程開關(guān)機(jī)等功能的重任。計(jì)算網(wǎng)絡(luò)全部使用萬兆低延遲無阻塞以太網(wǎng)作為數(shù)據(jù)傳輸通路,使數(shù)據(jù)無阻塞、高效快速的轉(zhuǎn)發(fā)。保障了集群所有節(jié)點(diǎn)之間的數(shù)據(jù)的高速可靠傳遞。通過以上網(wǎng)絡(luò)配置的組合。存儲(chǔ)部分基于高性能計(jì)算集群的“統(tǒng)一數(shù)據(jù)池”的特點(diǎn),針對(duì)目前石油勘探計(jì)算平臺(tái)的現(xiàn)狀以及未來的發(fā)展趨勢(shì)。為了有效相應(yīng)前端數(shù)以百計(jì)的計(jì)算節(jié)點(diǎn)大規(guī)模高并發(fā)長(zhǎng)時(shí)間訪問的需求。后端存儲(chǔ)既要具有高帶寬的特性,又要有高 IOPS 的特性。傳統(tǒng)的 SAN 文件系統(tǒng)和 NAS 文件系統(tǒng)是遠(yuǎn)遠(yuǎn)無法滿足實(shí)際需求的。寶德設(shè)計(jì)了一套分布式的海量存儲(chǔ)系統(tǒng)。整套系統(tǒng)可提供 256TB的可使用空間,以及 5GBps 的實(shí)際使用帶寬,保證數(shù)據(jù)調(diào)用的暢通無阻。存儲(chǔ)具有大容量文件共享、高效海量并發(fā)訪問、可定制的數(shù)據(jù)安全性保證、低總體擁有成本、方便的系統(tǒng)管理等諸多特點(diǎn)。軟件部分我們采用聯(lián)科的 Chess 軟件。Chess 集群軟件系統(tǒng)是對(duì)高性能計(jì)算行業(yè),耗時(shí)多年開發(fā)出來的一套功能完善的大規(guī)模服務(wù)器集群管理軟件。它擁有強(qiáng)大的工作負(fù)載管理平臺(tái),簡(jiǎn)化了 HPC 集群管理。它為客戶提供了全方位的集群監(jiān)控管理、作業(yè)調(diào)度等功能。可以精細(xì)展現(xiàn)當(dāng)前集群運(yùn)行狀態(tài),動(dòng)態(tài)顯示監(jiān)控信息,記錄歷史錯(cuò)誤信息,及時(shí)發(fā)現(xiàn)集群的異常狀況。在集群軟件系統(tǒng)的管理平臺(tái)中,整合了集群監(jiān)控,作業(yè)提交,節(jié)點(diǎn)監(jiān)控,web 遠(yuǎn)程登陸等功能。