科研,是科技持續(xù)發(fā)展的引擎??蒲袡C(jī)構(gòu)需要怎樣的支撐?除了經(jīng)費(fèi)和人才外,對(duì)高性能計(jì)算有著更高的需求,其強(qiáng)大的算力能夠支撐大量的科研項(xiàng)目,進(jìn)而縮短研發(fā)周期,推動(dòng)高效創(chuàng)新。
當(dāng)前,隨著數(shù)字經(jīng)濟(jì)的蓬勃發(fā)展,數(shù)據(jù)量的暴增,高性能計(jì)算正逐漸向新興的大數(shù)據(jù)、深度學(xué)習(xí)以及云計(jì)算等方向進(jìn)行融合和演進(jìn),以支撐人工智能、基因測(cè)序、仿真模擬等諸多領(lǐng)域的研究,HPC&AI的強(qiáng)大智能計(jì)算能力正推動(dòng)民生與數(shù)字經(jīng)濟(jì)的不斷升級(jí),成為構(gòu)建下一代基于數(shù)據(jù)產(chǎn)業(yè)和科學(xué)計(jì)算的基石,是開啟未來(lái)數(shù)據(jù)文明的秘鑰。
近日,寶德為中國(guó)科學(xué)院(簡(jiǎn)稱“中科院”)某研究院,量身定制的HPC&AI融合集群解決方案,憑借眾多優(yōu)勢(shì)以及良好的經(jīng)濟(jì)效益,在深圳市高校教育信息化學(xué)會(huì)舉辦的新基建下智慧校園建設(shè)發(fā)展論壇上,通過嚴(yán)格把關(guān)、層層甄選,獲評(píng)優(yōu)秀案例大獎(jiǎng)。
作為我國(guó)自然科學(xué)最高學(xué)術(shù)機(jī)構(gòu)、科學(xué)技術(shù)最高咨詢機(jī)構(gòu)、自然科學(xué)與高技術(shù)綜合研究發(fā)展中心,中科院的高性能計(jì)算之路已經(jīng)走過了近三十年,在應(yīng)用水平、計(jì)算規(guī)模和科研成果上都位列前沿,當(dāng)然,這也決定了中科院對(duì)于伙伴的選擇更為苛刻。
本次獲獎(jiǎng)案例中,寶德基于高可靠、易擴(kuò)展和開放的架構(gòu)設(shè)計(jì),為中科院某研究院搭建集實(shí)時(shí)計(jì)算、數(shù)據(jù)分析和大數(shù)據(jù)存儲(chǔ)于一體的遙感數(shù)據(jù)綜合分析管理平臺(tái),實(shí)現(xiàn)高性能計(jì)算和人工智能的結(jié)合應(yīng)用,既提供澎湃的算力,又帶來(lái)更多智能化的體驗(yàn),使得遙感數(shù)據(jù)處理速度提升120%,日處理數(shù)據(jù)量達(dá)到25TB,實(shí)際使用效益深厚院方滿意和認(rèn)可。方案中系統(tǒng)主要分為三個(gè)層次設(shè)計(jì):網(wǎng)絡(luò)層、存儲(chǔ)層和應(yīng)用層。網(wǎng)絡(luò)層主要提供終端與服務(wù)器、服務(wù)器與服務(wù)器之間的網(wǎng)絡(luò)物理硬件連接;存儲(chǔ)層主要提供應(yīng)用層所使用數(shù)據(jù)的讀取和存儲(chǔ);應(yīng)用層主要提供各種應(yīng)用請(qǐng)求、計(jì)算服務(wù)器和存儲(chǔ)服務(wù)器之間的數(shù)據(jù)交換等。同時(shí),方案主要通過構(gòu)建業(yè)務(wù)節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、分布式存儲(chǔ)資源池以及磁帶庫(kù),提供高達(dá)93.6TFlops以上的計(jì)算能力,SSD分布式存儲(chǔ)可用容量664TB,HDD分布式存儲(chǔ)可用容量4500TB,磁帶庫(kù)裸容量12PB的高性能計(jì)算集群,滿足院方當(dāng)前科研發(fā)展對(duì)于高性能計(jì)算力以及高速存儲(chǔ)IO帶寬的需求。1、系統(tǒng)基于先進(jìn)的萬(wàn)兆以太網(wǎng)絡(luò)構(gòu)建核心骨干網(wǎng),通過使用企業(yè)級(jí)萬(wàn)兆核心交換機(jī)實(shí)現(xiàn)核心網(wǎng)絡(luò)系統(tǒng)的架構(gòu)設(shè)計(jì),保證所有功能節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)之間以萬(wàn)兆網(wǎng)絡(luò)以上的線性速率進(jìn)行數(shù)據(jù)傳輸,大幅度提升傳輸帶寬,同時(shí)具備高冗余性和容錯(cuò)性。2、高性能在線計(jì)算集群部分基于100Gb Infiniband高速網(wǎng)絡(luò),通過RDMA技術(shù)可以加快HPC&AI計(jì)算節(jié)點(diǎn)之間的MPI數(shù)據(jù)通信和與存儲(chǔ)之間的數(shù)據(jù)傳輸,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)快速讀寫計(jì)算,并提升遙感圖形機(jī)器視覺處理能力,實(shí)現(xiàn)自動(dòng)識(shí)別和分析空間遙感圖像。3、 采用兩套分布式存儲(chǔ)系統(tǒng),均基于全對(duì)稱分布式設(shè)計(jì),SSD高速在線分布式存儲(chǔ)基于100Gb Infiniband提供存儲(chǔ)節(jié)點(diǎn)數(shù)據(jù)通信,HDD近線存儲(chǔ)基于萬(wàn)兆以太網(wǎng)提供存儲(chǔ)節(jié)點(diǎn)數(shù)據(jù)通信存儲(chǔ)之間,并采用糾刪碼和網(wǎng)絡(luò)冗余設(shè)計(jì),保證存儲(chǔ)系統(tǒng)的整體容錯(cuò)率。4、提供高可用業(yè)務(wù)服務(wù)器解決方案以及管理登錄節(jié)點(diǎn)雙機(jī)備份配置,保證集群系統(tǒng)高可用;Web服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、綜合業(yè)務(wù)服務(wù)器也通過冗余配置,并與萬(wàn)兆核心骨干網(wǎng)絡(luò)相連,搭配高性能磁盤陣列,實(shí)現(xiàn)綜合業(yè)務(wù)應(yīng)用高可用。5、采用綜合業(yè)務(wù)節(jié)點(diǎn)冗余配置搭配大容量磁帶庫(kù),實(shí)現(xiàn)冷數(shù)據(jù)的傳輸和長(zhǎng)期穩(wěn)定保存。以綜合業(yè)務(wù)節(jié)點(diǎn)作為備份管理端,將HDD近線存儲(chǔ)空間以NAS形式掛載到綜合業(yè)務(wù)節(jié)點(diǎn),配合備份軟件備份機(jī)制,將NAS里的文件備份到磁帶庫(kù),實(shí)現(xiàn)數(shù)據(jù)的離線保存。綜合以上設(shè)計(jì)和優(yōu)勢(shì),寶德HPC&AI融合集群解決方案幫助中科院某研究院實(shí)現(xiàn)對(duì)遙感大數(shù)據(jù)的實(shí)時(shí)分析,并結(jié)合人工智能技術(shù),快速獲取地表形態(tài)變化,以支撐多領(lǐng)域科學(xué)研究。在高性能計(jì)算領(lǐng)域,寶德已經(jīng)擁有二十余年的精耕細(xì)作和技術(shù)積累,當(dāng)前,伴隨著數(shù)字經(jīng)濟(jì)進(jìn)入全面滲透、融合階段,寶德的高性能計(jì)算更是走上了一條“融合創(chuàng)新發(fā)展”之路,此次為中科院某研究院打造的HPC&AI融合集群解決方案,是寶德綜合能力的展現(xiàn)也是二十余年底蘊(yùn)的釋放。面向未來(lái),寶德亦持續(xù)賦能高科技研發(fā)領(lǐng)域,進(jìn)一步助推我國(guó)科技和數(shù)字經(jīng)濟(jì)的進(jìn)步與發(fā)展。