当“天河二号”以每秒33.86千万亿次浮点运算速度再次荣登全球超级计算机500强排行榜榜首的时候,我一直有两个疑问:一是33.86千万亿次计算能力是不是通过增加服务器数量就可以实现,有没有这么简单?第二什么应用需要如此强大并行计算能力,所谓计算能力是不是一个数字游戏。
基因研究和超级计算机
如今,这两个问题都有了答案。首先要实现千万亿次浮点运算不是那么简单的。以天河二号为例,参与LINPACK测试的节点有16000个,耗时5个多小时,在这个过程中,只要有一台服务器出现故障,测试就会宣告失败。这意味着如果节点服务器的故障率是万分之一,1.6万台节点服务器就意味着测试100%不会成功。因此,参与运算的机器数量越大,失败的风险越高。另外,节点之间的网络延时、效率都是问题。总之,要构建一台千万亿次超级计算机还是有很多技术难点要克服。