去年底,新一期全球超级计算机500强榜单在美国公布,中国“天河二号”超级计算机连续第六度称雄。
目前,超算中心已构建起材料科学与工程计算、生物计算与个性化医疗、智慧城市大数据和云计算等6大应用服务平台。共有48名工作人员,其中技术人员有30名。
“天河二号”由170个机柜组成,一共装有3.2万颗主CPU和4.8万个协处理器。虽然每排机柜彼此分开,但它们工作时是彼此相联的,其实是一台计算机。
计算速度快,存储量大,体积也非常大,这是记者看到超级计算机时最直观的感受。要保证“国之重器”的正常运行,首先需要保证水电不断。
如果正常运行,年耗电量约为2亿度。每个星期电费大约在80万元左右。
据了解,超算中心不仅有固定的运维人员保证“天河二号”平稳运行,同时,无论供电、供水都是“特别配置”。为了保障机器不因断电而数据丢失,南方电网为超算中心建设了两路独立并互为备份的电源。在供水方面,广州市政府在距离超算中心3公里以外建了一个冷水厂,专门供中心使用。
由于超级计算机的基本组成组件与个人电脑的概念无太大差异,所以很多人会误以为超级计算机就是简单的cpu叠加。但这是一个认识误区。
袁学锋打了个比方:你用1000台PC,用普通的网线把它们连接在一起,你可能花了1万度电,算了10天,但是你用真正的超级计算机,可能只用5000度电,花了两天就算出来了。
“超级计算机就好比算盘,如果没有口诀,它就毫无用处。”国家超级计算机广州中心应用部工程师钟康游解释道。对于超级计算机而言,要让它真正运行起来,也需要各种口诀,但这些口诀更庞大、更复杂。目前科学界把这个算法称为超级算法理论。
超算中心的工程师们,每天花大量的时间,在优化“口诀”,找出更高效率的计算方法,最大限度地充分利用超级计算机的计算能力。
“有些客户想要运行一些很庞大的程序,操作比较复杂,但客户往往还停留在‘双击’启动的操作习惯,就得由我们来优化‘口诀’,让操作更‘傻瓜’。”钟康游形象地说,简单来说优化“口诀”就是“木桶效应”原理。
一个木桶能装多少水,取决于最短的一块板。而一个程序运行的速度,取决于跑得最慢的那个进程。“我们要做的就是通过一些小技巧,尽可能地使所有进程加快。优化后,原来需要11小时才能出的结果,现在只需3小时。”
袁学锋表示,目前,天河二号可以连续运行10小时无故障,稳定性全球第一。计算机运行过程中,最核心的是高速互联。可以想象成是几万台的PC联在一起做并行计算。而做并行计算的核心就是通讯,使大规模的系统能同步。因此我们要构架足够短的距离,使通讯速度足够快、稳定和可靠。