經(jīng)過20多年的發(fā)展,寶德持續(xù)而深刻地把握市場需求,積累了海量的客戶資源和豐富的服務(wù)經(jīng)驗
某大學(xué)某學(xué)院擬建設(shè)科研人工智能共享共建平臺,面向全院提供計算資源服務(wù),軟件基于K8S架構(gòu),可實現(xiàn)計算資源集中管理、靈活分配,支持定制開發(fā),支持多用戶使用等。此次建設(shè)需把學(xué)院前期購置的一臺GPU服務(wù)器,一臺40T容量的服務(wù)器納管進來,形成平臺系統(tǒng),達到:
1) 統(tǒng)一平臺管理,由基礎(chǔ)設(shè)施層作為整個平臺的支撐,通過云平臺對底層資源進行靈活的調(diào)度管理,通過系統(tǒng)功能層為用戶端和管理端降低 AI 技術(shù)門檻,釋放AI 技術(shù)潛力;
2) 解決“信息孤島”,實現(xiàn)信息共享,提高信息安全水平,提升科研體驗,提高工作效率;
3) 通過新平臺建設(shè)降低成本、提升效率、節(jié)能減排,滿足學(xué)院科研資源充分利用的要求。
該方案平臺使用寶德PLStack實現(xiàn),由管理系統(tǒng)和業(yè)務(wù)系統(tǒng)組成,將兩者從底層IT資源中分離開來,以提高管理系統(tǒng)的可移植性和業(yè)務(wù)系統(tǒng)的后期擴展性。集群拓撲設(shè)計從浮點計算能力強、GPU卡管理便捷、擴展豐富三個原則出發(fā),將計算資源和管理資源進行分離,同時管理網(wǎng)絡(luò)與計算網(wǎng)絡(luò)分開,避免管理對計算網(wǎng)絡(luò)資源的擠占,集群網(wǎng)絡(luò)分為:計算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)兩個平面:
計算網(wǎng)絡(luò):單口100Gb IB匯聚鏈路,用于連接所有GPU計算節(jié)點,同時提供塊設(shè)備、對象存儲等服務(wù);
管理網(wǎng)絡(luò):雙口千兆匯聚鏈路,用于管理人工智能平臺中的所有節(jié)點,為管理員提供 Web 控制臺;