領跑世界的指揮員記“天河一號”“
領跑世界的指揮員
記“天河一號”“天河二號”副總設計師肖立權
仲夏時節,湘江之畔的國防科技大學已進入暑期。校園里人影稀疏,不復往日熱鬧。
矗立在東北方向的天河大樓里,機房內長達數十米的機箱整齊排列著,指示燈明暗交錯,高速運轉的機箱發出低沉的嗡嗡聲。這就是我國六度稱雄全球超級計算機500強榜單,讓中國速度震驚世界的“天河二號”。
此時,“天河二號”副總設計師、國防科技大學計算機學院計算機研究所所長肖立權,正帶領著團隊攻關新一代高性能計算機。正是他們,吹響了向新的中國速度發起沖鋒的集結號。
無懼挑戰解決技術難題
1997年,肖立權博士畢業留校后,成為國防科技大學計算機學院計算機研究所的一名科研人員。從那時起,他就與巨型機一起成長,參與了“銀河”“天河”高性能計算機多代機型的研制,從一名普通的科研人員,一步步成長為今天國防科技大學超級計算機團隊的核心骨干。
“走別人沒走過的路太難,但我喜歡挑戰。”這是肖立權在接受采訪時常掛在嘴邊的一句話。
上個世紀末,大規模計算機系統中通常采用的電互聯技術傳輸速率低,且易受干擾,極大影響了系統的穩定性,成為我國研制千萬億次級超級計算機路上的一塊絆腳石。
如何搬開這塊絆腳石?用光互聯替代電互聯是最優解,于是,研究所將這一任務交給了肖立權。
這是一條別人沒有走過的路,注定充滿了荊棘和坎坷。
2003年受領任務后,肖立權立即將科研準星瞄向了這一技術難題。然而,按照自己思路做出來的系統根本跑不起來。
哪里出了問題?
那個夏天,肖立權滿腦子都在問為什么。就連午休閉上眼睛,他腦海里都是屏幕上滾動的實驗數據。
“沒法睡,去實驗室。”肖立權翻身而起,穿好衣服就往實驗室跑。
架起示波器、邏輯分析儀,他全神貫注地觀察著,生怕一眨眼就錯過了關鍵數據。
解決的思路一次次提出,卻又一次次被推翻。
某天,正在做實驗的肖立權突然冒出一個想法:是不是數據傳輸有問題?靈光乍現后,他找到了解決問題的鑰匙,隨即逆向思維反推,最終找到癥結所在。
這一刻,我國光互聯技術在大規模計算機系統中得到有效驗證,為后續這一技術在超級計算機系統中的應用奠定了堅實基礎。
此后,肖立權馬不停蹄,瞄準這一技術領域,拿下了一個又一個攔路虎,解決了光互聯替代電互聯的系列技術難題,成功研制出我國首臺采用光互聯技術的并行計算機互聯通信系統。傳輸速率從原有的400Mbps一路飆升為10Gbps,實現數量級飛躍。
艱難闖關問鼎世界桂冠
2010年11月,“天河一號”憑借優異性能登上世界超級計算機500強榜首,中國超級計算機首次問鼎世界桂冠,五星紅旗飄揚世界之巔。
2013年6月,“天河二號”以峰值運算速度每秒5.49億億次,持續計算速度每秒3.39億億次,輕松摘得世界超級計算機500強桂冠,我國超級計算機研制達到世界領先水平。習近平主席專門對“天河二號”研制成功作出重要批示。
2013年11月,“天河二號”蟬聯世界超級計算機500強榜首;
2015年11月,“天河二號”六次問鼎世界超級計算機500強,中國速度繼續領跑世界。
作為“天河一號”“天河二號”的副總設計師,這些耀眼成績的背后,是肖立權瞄準世界高性能計算機技術前沿,不懈探索創新的豐碩成果。
高速互聯通信是決定大規模并行計算機系統實用效率的關鍵,美國對中國嚴格封鎖高速互聯技術轉讓。當時,“天河一號”在國內首次創新性地采用了CPU+GPU異構融合體系架構,其內部數萬個CPU和GPU需要通過互聯通信系統實現信息交換,難度可想而知,組織并全面負責互聯通信系統自主設計研制任務的肖立權倍感壓力。
寒來暑往,他不僅協助制定系統的總體技術方案、技術路線和設計指導原則,而且經常泡在試驗一線,從原理驗證到工程實踐,一個環節都不放過。團隊在他的帶領下,開展關鍵技術、核心技術攻關,迅速打響了一場沒有硝煙的戰斗,成功將“天河一號”送上世界超級計算機第一的寶座。
在大家眼里,肖立權是名副其實的拼命三郎。可用他自己的話說,和地下銀河團隊那些為了銀河事業而犧牲奉獻的先輩先烈相比,這算不了什么。
自主創新攻克世界難題
短暫的喜悅過后,肖立權又開始了緊張的工作,他早已將目標瞄準了運算速度更快的億億次超級計算機系統——“天河二號”。
在原有基礎上,他帶領團隊進行封閉攻關,“天河二號”高速互聯通信系統性能得到提升,是當時國際商用互聯系統的兩倍。它可以把上萬顆微處理器聯系起來,共同解決同一個計算問題,解決了高效互聯中微處理器越多效能越低的世界難題。
研制“天河二號”期間,由于時間緊任務重,在接近1000天的研制周期中,肖立權只在兩個春節各休息了3天。
對于肖立權來說,這就是他的戰場,他既要當項目指揮者,又要做一線戰斗員。
攻關關鍵期,肖立權帶領所在團隊采取三班倒方式夜以繼日進行奮戰,自己每天連續工作十幾個小時以上,身體屢亮黃燈卻無暇顧及。
在這條自主創新的道路上,肖立權帶領項目組在校外進行了長達一年的封閉設計工作,自主研制出互聯通信系統最核心的兩塊芯片:路由器和網絡接口。
一臺超級計算機系統好比一個大城市,互聯通信系統就是城市的公路網,路由器就是立交橋,網絡接口就是主干道出入口。一個城市公路網市政設施建設得再好,立交橋和主干道出入口不設計好,城市交通依然擁擠不堪。
依靠自主創新,掌握了屬于自己的核心關鍵技術,這是“天河二號”在發展迅猛、競爭激烈的世界超級計算機領域長時間保持領先地位的主要原因。
正如國際TOP500主要撰稿人杰克·唐加拉所說:“中國自主研發了內部互聯技術,這是買不來的,這是他們基于芯片、路由器及自主生產的交換器開發出來的。”
“我們參加世界排名并不僅僅是為了第一。世界超算500強榜單其實是一個交流平臺,只有在國際上有了聲譽,別人才愿意和我們交流。”肖立權深知,只有自立自強,掌握自主核心關鍵技術,才能在國際上掌握發言權,讓世界聽到來自中國的聲音,讓中國更好的了解國際前沿發展趨勢。
作為計算機研究所領導,肖立權始終把人才培養作為科學研究的重中之重。在所內實施青年骨干培養計劃,制定優秀人才個性化培養方案,讓10多名年輕博士擔任分系統設計師,組織一線骨干留學考察。
目前,這個所入選國家和軍隊人才培養工程對象等高獎項的有38人次,平均年齡不到40歲。
擔任博士生導師和碩士生導師以來,肖立權累計指導博士生8名,碩士生15名。根據學生不同興趣和愛好,在高性能計算機體系結構、高速互聯網絡結構、光互聯與交換、深亞微米ASIC設計等方面,他以自身積累的深厚理論基礎和豐富的實踐經驗為基礎,引導學生廣泛參與工程實踐活動,在實踐中培養學生的創新和科研攻關能力。
眼下的這個暑假,對肖立權來說并不存在,他正忙著帶領團隊全力投入到新一代高性能計算機的研制攻關中。
肖立權的目標,是摘取超級計算機的下一頂皇冠。
□ 本報記者 廉穎婷
□ 本報通訊員 劉于藍